凌晨三点看的片WWW在线看,亚洲无码av导航一区二区

大模型（LLMs）增量預(yù)訓(xùn)練篇 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-04-18 10:31:46

(侵權(quán)舉報)

(假如點(diǎn)擊沒反應(yīng)，多刷新兩次就OK！)

大模型（LLMs）增量預(yù)訓(xùn)練篇 PDF 下載圖1

資料內(nèi)容：

1. 為什么要增量預(yù)訓(xùn)練？

有一種觀點(diǎn)，預(yù)訓(xùn)練學(xué)知識，指令微調(diào)學(xué)格式，強(qiáng)化學(xué)習(xí)對齊人類偏好，LIMA等論文算是這一觀點(diǎn)的證據(jù)。

所以要想大模型有領(lǐng)域知識，得增量預(yù)訓(xùn)練。（靠指令微調(diào)記知識不靠譜，不是幾十w條數(shù)據(jù)能做到的。）

2. 進(jìn)行增量預(yù)訓(xùn)練需要做哪些準(zhǔn)備工作？

1. 模型底座選型

主流是LLaMA，因?yàn)?/span>scaling法則，可能LLaMA做了充分預(yù)訓(xùn)練。（當(dāng)然有版權(quán)問題）

這里備選BLOOM，感覺基座比LLaMA差，但是也有7B版本。

Falcon、CPM-bee、Aquila、Baichuan待實(shí)驗(yàn)，license友好，但生態(tài)和效果都是問題。其實(shí)，因?yàn)榻Y(jié)構(gòu)上都類

似LLaMA，未來估計會出現(xiàn)整合這些模型的項目。

（Falcon公布的訓(xùn)練語料中沒有中文）

這里沒列ChatGLM和ChatGLM2，因?yàn)橛蟹N說法在SFT模型上增量預(yù)訓(xùn)練效果比較差。（未證實(shí)）

這里最經(jīng)典的開源預(yù)訓(xùn)練數(shù)據(jù)還是wudao的200G和thepile這兩個數(shù)據(jù)集（懷念一下Open-Llama）

加起來有1T的文本量，足夠前期玩耍了。

其實(shí)，剛開始實(shí)踐的時候，不需要太多樣本，先收集GB量級的領(lǐng)域文本跑通流程即可。

當(dāng)然這里數(shù)據(jù)治理可能是chatgpt魔法的最關(guān)鍵的部分，最基礎(chǔ)的是把網(wǎng)頁爬取數(shù)據(jù)中的廣告清理掉。

Falcon論文里介紹了數(shù)據(jù)清洗的手段，對于我們很有參考意義。