Python知識分享網 - 專業(yè)的Python學習網站 學Python,上Python222
大模型(LLMs)訓練集面 PDF 下載
匿名網友發(fā)布于:2025-04-25 09:47:02
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)訓練集面 PDF 下載 圖1

 

 

資料內容:

 

 

1. SFT(有監(jiān)督微調)的數據集格式?
一問一答
 
2. RM(獎勵模型)的數據格式?
一個問題 + 一條好回答樣例 + 一條差回答樣例
 
3. PPO(強化學習)的數據格式?
理論上來說,不需要新增數據。需要提供一些prompt,可以直接用sft階段的問。另外,需要限制
模型不要偏離原模型太遠(ptx loss),也可以直接用sft的數據。
 
4. 找數據集哪里找?
推薦Alpaca-COT,數據集整理的非常全,眼花繚亂。
 
5. 微調需要多少條數據?
取決于預訓練數據和微調任務的數據分布是否一致,分布一致,100條就夠,分布差異大就需要多
些數據,千條或者萬條以上為佳。
自己的任務復雜或者下游任務行業(yè)比較冷門,如藥品名稱識別任務,則需要較多監(jiān)督數據。還有微
調大模型時,一遍是記不住的。100條的微調數據,epochs=20才能穩(wěn)定擬合任務要求。
 
6. 有哪些大模型的訓練集?
預訓練數據集togethercomputer/RedPajama-Data-1T「紅睡衣」開源計劃總共包括三部分:
預訓練數據集RedPajama-Data-1T已開源,包括七個子集,經過預處理后得到的token數量大致可
以匹配Meta在原始LLaMA論文中報告的數量,并且數據預處理相關腳本也已開源。
完整的RedPajama-Data-1T數據集需要的存儲容量為壓縮后3TB,解壓后5TB。
CoT微調數據集:Alpaca-CoT 里面包括常用的alpacaCoT等數據集,有中文的。
 
7. 進行領域大模型預訓練應用哪些數據集比較好?
通過分析發(fā)現現有的開源大模型進行預訓練的過程中會加入數據、論文等數據。主要是因為這些數
據的數據質量較高,領域相關性比較強,知識覆蓋率(密度)較大,可以讓模型更適應考試。給我
高質量、大規(guī)模、高覆蓋度的預訓練數據集;
在預訓練數據集上訓練出的基礎模型;
指令調優(yōu)數據集和模型,比基本模型更安全、可靠。
掃碼加
查看更多們自己進行大模型預訓練的時候提供了一個參考。同時領域相關的網站內容、新聞內容也是比較重
要的數據。