資料內容:
1. SFT(有監(jiān)督微調)的數據集格式?
一問一答
2. RM(獎勵模型)的數據格式?
一個問題 + 一條好回答樣例 + 一條差回答樣例
3. PPO(強化學習)的數據格式?
理論上來說,不需要新增數據。需要提供一些prompt,可以直接用sft階段的問。另外,需要限制
模型不要偏離原模型太遠(ptx loss),也可以直接用sft的數據。
4. 找數據集哪里找?
推薦Alpaca-COT,數據集整理的非常全,眼花繚亂。
5. 微調需要多少條數據?
取決于預訓練數據和微調任務的數據分布是否一致,分布一致,100條就夠,分布差異大就需要多
些數據,千條或者萬條以上為佳。
自己的任務復雜或者下游任務行業(yè)比較冷門,如藥品名稱識別任務,則需要較多監(jiān)督數據。還有微
調大模型時,一遍是記不住的。100條的微調數據,epochs=20才能穩(wěn)定擬合任務要求。
6. 有哪些大模型的訓練集?
預訓練數據集togethercomputer/RedPajama-Data-1T「紅睡衣」開源計劃總共包括三部分:
預訓練數據集RedPajama-Data-1T已開源,包括七個子集,經過預處理后得到的token數量大致可
以匹配Meta在原始LLaMA論文中報告的數量,并且數據預處理相關腳本也已開源。
完整的RedPajama-Data-1T數據集需要的存儲容量為壓縮后3TB,解壓后5TB。
CoT微調數據集:Alpaca-CoT 里面包括常用的alpaca,CoT等數據集,有中文的。
7. 進行領域大模型預訓練應用哪些數據集比較好?
通過分析發(fā)現現有的開源大模型進行預訓練的過程中會加入數據、論文等數據。主要是因為這些數
據的數據質量較高,領域相關性比較強,知識覆蓋率(密度)較大,可以讓模型更適應考試。給我
• 高質量、大規(guī)模、高覆蓋度的預訓練數據集;
• 在預訓練數據集上訓練出的基礎模型;
• 指令調優(yōu)數據集和模型,比基本模型更安全、可靠。
掃碼加
查看更多們自己進行大模型預訓練的時候提供了一個參考。同時領域相關的網站內容、新聞內容也是比較重
要的數據。