資料內容:
1. 為什么要增量預訓練?
有一種觀點,預訓練學知識,指令微調學格式,強化學習對齊人類偏好,LIMA等論文算是這一觀點的證據(jù)。
所以要想大模型有領域知識,得增量預訓練。(靠指令微調記知識不靠譜,不是幾十w條數(shù)據(jù)能做到的。)
2. 進行 增量預訓練 需要做哪些準備工作?
1. 模型底座選型
主流是LLaMA,因為scaling法則,可能LLaMA做了充分預訓練。(當然有版權問題)
這里備選BLOOM,感覺基座比LLaMA差,但是也有7B版本。
Falcon、CPM-bee、Aquila、Baichuan待實驗,license友好,但生態(tài)和效果都是問題。其實,因為結構上都類
似LLaMA,未來估計會出現(xiàn)整合這些模型的項目。
(Falcon公布的訓練語料中沒有中文)
這里沒列ChatGLM和ChatGLM2,因為有種說法在SFT模型上增量預訓練效果比較差。(未證實)
這里最經典的開源預訓練數(shù)據(jù)還是wudao的200G和thepile這兩個數(shù)據(jù)集(懷念一下Open-Llama)
加起來有1T的文本量,足夠前期玩耍了。
其實,剛開始實踐的時候,不需要太多樣本,先收集GB量級的領域文本跑通流程即可。
當然這里數(shù)據(jù)治理可能是chatgpt魔法的最關鍵的部分,最基礎的是把網頁爬取數(shù)據(jù)中的廣告清理掉。
Falcon論文里介紹了數(shù)據(jù)清洗的手段,對于我們很有參考意義。