人妻av中文字幕无码专区,亚洲夜色

Attention 升級(jí)面 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-03-27 10:11:09

(侵權(quán)舉報(bào))

(假如點(diǎn)擊沒(méi)反應(yīng)，多刷新兩次就OK！)

Attention 升級(jí)面 PDF 下載圖1

資料內(nèi)容：

1 傳統(tǒng) Attention 存在哪些問(wèn)題？

1. 傳統(tǒng) Attention 存在上下文長(zhǎng)度約束問(wèn)題；

2. 傳統(tǒng) Attention 速度慢，內(nèi)存占用大；

2 Attention 優(yōu)化方向

1. 提升上下文長(zhǎng)度

2. 加速、減少內(nèi)存占用

3 Attention 變體有哪些？

稀疏 attention。將稀疏偏差引入 attention 機(jī)制可以降低了復(fù)雜性；

• 線性化 attention。解開(kāi) attention 矩陣與內(nèi)核特征圖，然后以相反的順序計(jì)算 attention 以實(shí)現(xiàn)線性復(fù)雜度；

• 原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對(duì)的數(shù)量，以減少注意力矩陣的大??；

• 低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性；

• Attention 與先驗(yàn)。該研究探索了用先驗(yàn) attention 分布來(lái)補(bǔ)充或替代標(biāo)準(zhǔn) attention；

• 改進(jìn)多頭機(jī)制。該系列研究探索了不同的替代多頭機(jī)制。

4 Multi-Query Attention 篇

4.1 Multi-head Attention 存在什么問(wèn)題？

• 訓(xùn)練過(guò)程：不會(huì)顯著影響訓(xùn)練過(guò)程，訓(xùn)練速度不變，會(huì)引起非常細(xì)微的模型效果損失；

• 推理過(guò)程：反復(fù)加載巨大的 KV cache , 導(dǎo)致內(nèi)存開(kāi)銷大，性能是內(nèi)存受限；

4.2 介紹一下 Multi-Query Attention？

Multi-Query Attention 在所有注意力頭上共享 key 和 value.