資料內(nèi)容:
1 簡單介紹強化學習?
強化學習:(Reinforcement Learning)一種機器學習的方法,通過從外部獲得激勵來校正學習方向從而獲得一
種自適應的學習能力。
2 簡單介紹一下 RLHF?
基于人工反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF):構(gòu)建人類反饋數(shù)據(jù)集,
訓練一個激勵模型,模仿人類偏好對結(jié)果打分,這是GPT-3后時代大語言模型越來越像人類對話核心技術(shù)。
3. 獎勵模型需要和基礎(chǔ)模型一致嗎?
不同實現(xiàn)方式似乎限制不同。(待實踐確認)colossal-ai的coati中需要模型有相同的tokenizer,所以選模型只能
從同系列中找。在ppo算法實現(xiàn)方式上據(jù)說trlx是最符合論文的。
4. RLHF 在實踐過程中存在哪些不足?
1. 不足點1:人工產(chǎn)生的偏好數(shù)據(jù)集成本較高,很難量產(chǎn);
2. 不足點2:三個階段的訓練(SFT->RM->PPO)過程較長,更新迭代較慢;
3. 不足點3:PPO 的訓練過程同時存在4個模型(2訓練,2推理),對計算資源的要求較高。
5. 如何解決 人工產(chǎn)生的偏好數(shù)據(jù)集成本較高,很難量產(chǎn)問題?
該方法的核心在于通過AI 模型監(jiān)督其他 AI 模型,即在SFT階段,從初始模型中采樣,然后生成自我批評和修
正,然后根據(jù)修正后的反應微調(diào)原始模型。 在 RL 階段,從微調(diào)模型中采樣,使用一個模型來評估生成的樣本,