Python知識(shí)分享網(wǎng) - 專(zhuān)業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)強(qiáng)化學(xué)習(xí)——RLHF及其變種面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-21 09:49:36
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

大模型(LLMs)強(qiáng)化學(xué)習(xí)——RLHF及其變種面  PDF 下載 圖1

 

 

資料內(nèi)容:

 

一、介紹一下 LLM的經(jīng)典預(yù)訓(xùn)練Pipeline?

 

目前基于Transformer decoderLLM,比如ChatGPTLLaMA、baichuan等,通常都會(huì)有基于預(yù)訓(xùn)練的base
型和在base模型至少使用RLHF微調(diào)的Chat模型,Chat模型的訓(xùn)練一般都包括如下三個(gè)步驟:預(yù)訓(xùn)練,有監(jiān)督微
調(diào)和對(duì)齊。
1. 在預(yù)訓(xùn)練階段,模型會(huì)從大量無(wú)標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)通用知識(shí);
2. 使用「有監(jiān)督微調(diào)」(SFT)優(yōu)化模型以更好地遵守特定指令;
3. 使用對(duì)齊技術(shù)使LLM可以更有用且更安全地響應(yīng)用戶提示。
 
二、預(yù)訓(xùn)練(Pre-training)篇
2.1 具體介紹一下 預(yù)訓(xùn)練(Pre-training)?
預(yù)訓(xùn)練(Pre-training):利用數(shù)十億到數(shù)萬(wàn)億個(gè)token的龐大文本語(yǔ)料庫(kù) 對(duì)模型繼續(xù) 預(yù)訓(xùn)練,使 模型 能夠 根據(jù)
提供的文本來(lái)預(yù)測(cè)「下一個(gè)單詞」。
 
三、有監(jiān)督微調(diào)(Supervised Tinetuning)篇
3.1 具體介紹一下 有監(jiān)督微調(diào)(Supervised Tinetuning)?
有監(jiān)督微調(diào)(Supervised Tinetuning:雖然 SFT 訓(xùn)練目標(biāo)和 預(yù)訓(xùn)練(Pre-training)類(lèi)似,也是 需要模型 預(yù)測(cè)
「下一個(gè)單詞」,但是需要人工標(biāo)注的指令數(shù)據(jù)集,其中模型的輸入是一個(gè)指令(根據(jù)任務(wù)的不同,也可能包含
一段輸入文本),輸出為模型的預(yù)期回復(fù)內(nèi)容