DeepSeek 再放降本大招:NSA 官宣宣布,减速推理下
作者:[db:作者] 发布时间:2025-02-19 08:35
IT之家 2 月 18 日新闻,DeepSeek 本日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可练习的稀少留神力机制,用于超疾速长高低文练习与推理。NSA 的中心组件包含:静态分层稀少战略粗粒度 token 紧缩细粒度 token 抉择DeepSeek 官方表现,该机制可优化古代硬件计划,减速推理同时下降预练习本钱,而且不就义机能。在通用基准、长高低文义务跟基于指令的推理上,其表示与全留神力模子相称或愈加优良。IT之家附论文链接:https://arxiv.org/abs/2502.11089
电话
020-66888888