Python知識分享網 - 專業(yè)的Python學習網站 學Python,上Python222
大模型(LLMs)增量預訓練篇 PDF 下載
匿名網友發(fā)布于:2025-04-18 10:31:46
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)增量預訓練篇  PDF 下載    圖1

 

 

資料內容:

 

1. 為什么要增量預訓練?
有一種觀點,預訓練學知識,指令微調學格式,強化學習對齊人類偏好,LIMA等論文算是這一觀點的證據(jù)。
所以要想大模型有領域知識,得增量預訓練。(靠指令微調記知識不靠譜,不是幾十w條數(shù)據(jù)能做到的。)
 
2. 進行 增量預訓練 需要做哪些準備工作?
1. 模型底座選型
主流是LLaMA,因為scaling法則,可能LLaMA做了充分預訓練。(當然有版權問題)
這里備選BLOOM,感覺基座比LLaMA差,但是也有7B版本。
Falcon、CPM-bee、AquilaBaichuan待實驗,license友好,但生態(tài)和效果都是問題。其實,因為結構上都類
LLaMA,未來估計會出現(xiàn)整合這些模型的項目。
Falcon公布的訓練語料中沒有中文)
這里沒列ChatGLMChatGLM2,因為有種說法在SFT模型上增量預訓練效果比較差。(未證實)
這里最經典的開源預訓練數(shù)據(jù)還是wudao200Gthepile這兩個數(shù)據(jù)集(懷念一下Open-Llama
加起來有1T的文本量,足夠前期玩耍了。
其實,剛開始實踐的時候,不需要太多樣本,先收集GB量級的領域文本跑通流程即可。
當然這里數(shù)據(jù)治理可能是chatgpt魔法的最關鍵的部分,最基礎的是把網頁爬取數(shù)據(jù)中的廣告清理掉。
Falcon論文里介紹了數(shù)據(jù)清洗的手段,對于我們很有參考意義。