Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Transformer面試 DOC 下載
匿名網(wǎng)友發(fā)布于:2025-05-30 09:55:01
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

Transformer面試 DOC 下載 圖1

 

 

資料內(nèi)容:

 

.1.Transformer為何使用多頭注意力機(jī)制?(為什么不使用一個(gè)頭)
.2.Transformer為什么Q和K使用不同的權(quán)重矩陣生成,為何不能使用同一個(gè)值進(jìn)行自身的點(diǎn)乘? (注意和第一個(gè)問(wèn)題的區(qū)別)
.3.Transformer計(jì)算attention的時(shí)候?yàn)楹芜x擇點(diǎn)乘而不是加法??jī)烧哂?jì)算復(fù)雜度和效果上有什么區(qū)別?
.4.為什么在進(jìn)行softmax之前需要對(duì)attention進(jìn)行scaled(為什么除以dk的平方根),并使用公式推導(dǎo)進(jìn)行講解
.5.在計(jì)算attention score的時(shí)候如何對(duì)padding做mask操作?
.6.為什么在進(jìn)行多頭注意力的時(shí)候需要對(duì)每個(gè)head進(jìn)行降維?(可以參考上面一個(gè)問(wèn)題)
.7.大概講一下Transformer的Encoder模塊?
.8.為何在獲取輸入詞向量之后需要對(duì)矩陣乘以embedding size的開(kāi)方?意義是什么?
.9.簡(jiǎn)單介紹一下Transformer的位置編碼?有什么意義和優(yōu)缺點(diǎn)?
.10.你還了解哪些關(guān)于位置編碼的技術(shù),各自的優(yōu)缺點(diǎn)是什么?
.11.簡(jiǎn)單講一下Transformer中的殘差結(jié)構(gòu)以及意義。
.12.為什么transformer塊使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?