
三上悠亚在线-三上悠亚作品在线观看 尚新讲坛2025年第六期学术讲座于2025年11月3日上午在荟庐二楼会议室举办。讲座以“大模型中Attention注意力机制及其高效稀疏注意力研究”为题,由北京大学计算机三上悠亚在线 二级教授张铭主讲。此次讲座为在场师生带来了一场内容详实、富有启发性的学术分享。
张铭教授首先从大模型的基础架构入手,详细讲解了注意力机制与Transformer的核心原理。她指出,注意力机制是模型理解语义关联的关键,并比较了GPT与BERT在注意力机制上的不同应用。

针对大模型处理长序列面临的挑战,张教授指出传统全注意力机制存在计算复杂度高、“近因偏差”等问题,限制了其在法律文书分析等场景的应用。其次她重点介绍了团队与DeepSeek联合研发的“原生稀疏注意力模型(NSA)”,该模型通过三重注意力机制创新,在H800 GPU处理128K序列时,预填充成本降低40%、解码速度提升2-3倍。
讲座尾声,张铭教授总结了NSA模型在“算法-硬件协同设计”方面的突破,并展望了动态自适应注意力、多模态融合及端侧部署优化等未来研究方向。

本次讲座为三上悠亚在线 师生提供了深入了解大模型前沿技术的机会,促进了高校间的学术交流,也为三上悠亚在线 在人工智能领域的学科建设与科研创新提供了有益参考。
(图文:软件与物联网工程三上悠亚在线 编辑:罗秫)
审核:邹璐、匡琳、季小刚
