資料內(nèi)容:
1 傳統(tǒng) Attention 存在哪些問題?
1. 傳統(tǒng) Attention 存在 上下文長(zhǎng)度 約束問題;
2. 傳統(tǒng) Attention 速度慢,內(nèi)存占用大;
2 Attention 優(yōu)化方向
1. 提升上下文長(zhǎng)度
2. 加速、減少內(nèi)存占用
3 Attention 變體有哪些?
稀疏 attention。將稀疏偏差引入 attention 機(jī)制可以降低了復(fù)雜性;
• 線性化 attention。解開 attention 矩陣與內(nèi)核特征圖,然后以相反的順序計(jì)算 attention 以實(shí)現(xiàn)線性復(fù)雜度;
• 原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對(duì)的數(shù)量,以減少注意力矩陣的大小;
• 低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性;
• Attention 與先驗(yàn)。該研究探索了用先驗(yàn) attention 分布來補(bǔ)充或替代標(biāo)準(zhǔn) attention;
• 改進(jìn)多頭機(jī)制。該系列研究探索了不同的替代多頭機(jī)制。
4 Multi-Query Attention 篇
4.1 Multi-head Attention 存在什么問題?
• 訓(xùn)練過程:不會(huì)顯著影響訓(xùn)練過程,訓(xùn)練速度不變,會(huì)引起非常細(xì)微的模型效果損失;
• 推理過程:反復(fù)加載 巨大 的 KV cache , 導(dǎo)致 內(nèi)存開銷大,性能是內(nèi)存受限;
4.2 介紹一下 Multi-Query Attention?
Multi-Query Attention 在所有注意力頭上 共享 key 和 value.