資料內容:
冷啟動 Cold Start
? 數(shù)據(jù)準備:few-shot long cot data, 詳細帶反思和驗證的數(shù)據(jù)集
? 雙重驗證:由人類注釋者和 R1-zero 生成的高質量鏈式思考
(Chain-of-Thought, CoT)數(shù)據(jù),部分樣本長度達到 10,000 Token
? 成效:提供一些 Human Prior \ 顯著提升了語言的語義連貫性、可
讀性和基本推理能力。
? 推理為中心RL Reasoning-Oriented RL
? 增加了大規(guī)模的RL訓練過程:和DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等帶有明確解答過程的問題
? 語言一致性獎勵:引入 language consistency reward 衡量長推理鏈
可讀性(通過計算CoT過程中目標語言的占比)
? 推理準確率獎勵:結合 accuracy of reasoning tasks and reward for
language consistency
? 成效:通過 GRPO ,模型在 AIME 2024 等數(shù)學基準上取得了顯著
提升,pass@1 從 15.6% 提高到 71.0%。此外,模型能夠自發(fā)延長
推理鏈條,展現(xiàn)出更強的邏輯連貫性。