你的位置:开云(中国大陆) Kaiyun·官方网站 > 新闻动态 >
发布日期:2025-03-25 04:23 点击次数:153
大模子相似的高下文窗口,只需一半内存就能收场欧洲杯体育,况且精度无损?
前苹果 ASIC 架构师 Nils Graef,和又名 UC 伯克利在读本科生沿途建议了新的瞩见识机制Slim Attention。
它以表率多头瞩见识(MHA)为基准,对其中的 value 缓存惩办过程进行了调理,收场了更少的内存占用。
具体来说,Slim Attention 既不错让KV 缓存大小减半,也不错在 KV 缓存大小不变的情况下让高下文翻倍,皆不会带来精度圆寂。
此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2 倍。
网友评价,Slim Attention 固然肤浅,但却是一个很酷的办法。
还有 AI 创业者评发扬,这是一项要紧打破,可能重塑对模子历练和部署的主见。
K-Cache is All You Need
在表率的 MHA 机制当中,关于输入 X 和会过线性变换,经由三个投影矩阵 W_Q、W_K、W_V 取得 Q ( query ) 、K ( key ) 和 V ( value ) 三个矩阵。
在推理阶段,每个输入 token 计较取得的 K 和 V 向量皆需要缓存起来,造成 KV cache 供后续 token 计较时使用。
Slim Attention 的中枢念念路是,掌握 MHA 中 W_K 和 W_V 经常皆是方阵的性质,只存储 K 而不径直存储 V,然后及时掌握 K 计较出 V。
△原始 MHA(左)与修订版(右)对比
在历练阶段,Slim Attention 与表率 MHA 一样,会对输入 X 计较 Q、K、V 三个矩阵,瞩见识计较和梯度回传也与表率 MHA 透顶一致。
在 W_K 可逆的前提下,Slim Attention 引入一个新的参数矩阵 W_KV:
W_KV = W_K^ ( -1 ) · W_V
据此,不错取得:
V = X · W_V = X · W_K · W_K^ ( -1 ) · W_V = K · W_KV
推理过程则主要分为两个阶段——请示阶段(并行计较)和生成阶段(自总结)。
请示阶段与表率 MHA 一样,将输入的所有 token 并行计较 Q、K 矩阵,但不同的是,这里不径直计较 V,而是将中间按捺 K 缓存供后续使用。
生成阶段每个时候步生成一个新 token,最初计较该时候步的 Q 向量 q,然后基于 q 和之前时候步缓存的 K 矩阵,计较瞩见识得(即 softmax 的输入)。
在 softmax 之前,Slim Attention 通过公式 V = K · W_KV 及时计较 V 矩阵。具体有两种神色 :
径直计较 V,然后将 softmax 按捺与 V 相乘(矩阵乘法)取得瞩见识输出;
先将 softmax 按捺与 K 相乘,然后再与 W_KV 相乘,当序列较永劫这种神色更高效。
剩余经过(残差集中、前馈层等)与表率 MHA 一致,终末将面前步的 k 向量添加到 K 缓存中,供下一时候步使用。
总之,Slim Attention 是表率 MHA 的精准数学重写,因此与雷同本事不同,可确保准确率不会下落。
以此为前提,Slim Attention 收场了 KV 缓存减半或高下文翻倍的效果。
前苹果架构师与 UC 伯克利本科成效果
Slim Attention 的作家是 AI 初创公司 OpenMachine 的首创东谈主兼 CEO Nils Graef,以及 UC 伯克利在读本科生Andrew Wasielewski。
Nils 的主业是机器学习加快器的架构和打算,曾发表两篇 IEEE 期刊论文和 30 多项专利,援用次数越过 900 次。
创立 OpenMachine 前,Nils 在闻名推理加快平台 Groq(瞩目不是马斯克的 Grok)担任芯片架构师。
更早的时候,他先后担任过谷歌 ML 加快器架构 & 打算工程师和苹果 ASIC 架构师。
Andrew Wasielewski 是 UC 伯克利在读本科生,专科是物理和 EECs(电气工程与计较机科学),瞻望将于来岁毕业。
把柄论文签字信息败露,Slim Attention 的职责是 Andrew 在 OpenMachine 完成的。
旧年 7 月,Nils 和 Andrew 还与其他东谈主调和,发表了一篇名为Flash normalization的论文,建议了一种更快的 RNS 归一化神色。
此外皮 Slim Attention 的致谢中还提到,艾伦施行室的 Dirk Groeneveld,以及 SGLang 三作谢志强,对其职责提供了有意商讨;Transformer 作家之一、Character.AI 首创东谈主 Noam Shazeer 给出了积极响应。
论文地址:
https://arxiv.org/abs/2503.05840
参考联络:
https://x.com/rohanpaul_ai/status/1901092052282339474欧洲杯体育