Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Attention 升級(jí)面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-27 10:11:09
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

Attention 升級(jí)面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

1 傳統(tǒng) Attention 存在哪些問題?
1. 傳統(tǒng) Attention 存在 上下文長(zhǎng)度 約束問題;
2. 傳統(tǒng) Attention 速度慢,內(nèi)存占用大;
 
2 Attention 優(yōu)化方向
1. 提升上下文長(zhǎng)度
2. 加速、減少內(nèi)存占用
 
3 Attention 變體有哪些?
稀疏 attention。將稀疏偏差引入 attention 機(jī)制可以降低了復(fù)雜性;
線性化 attention。解開 attention 矩陣與內(nèi)核特征圖,然后以相反的順序計(jì)算 attention 以實(shí)現(xiàn)線性復(fù)雜度;
原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對(duì)的數(shù)量,以減少注意力矩陣的大小;
低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性;
• Attention 與先驗(yàn)。該研究探索了用先驗(yàn) attention 分布來補(bǔ)充或替代標(biāo)準(zhǔn) attention
改進(jìn)多頭機(jī)制。該系列研究探索了不同的替代多頭機(jī)制。
 
4 Multi-Query Attention
4.1 Multi-head Attention 存在什么問題?
訓(xùn)練過程:不會(huì)顯著影響訓(xùn)練過程,訓(xùn)練速度不變,會(huì)引起非常細(xì)微的模型效果損失;
推理過程:反復(fù)加載 巨大 的 KV cache , 導(dǎo)致 內(nèi)存開銷大,性能是內(nèi)存受限;
 
4.2 介紹一下 Multi-Query Attention?
Multi-Query Attention 在所有注意力頭上 共享 key value.