資料內(nèi)容:
前言
受到 Barnett 等人的論文《Seven Failure Points When Engineering a Retrieval Augmented
Generation System》的啟發(fā),本文將探討論文中提到的七個(gè)痛點(diǎn),以及在開(kāi)發(fā)檢索增強(qiáng)型生成
(RAG)流程中常見(jiàn)的五個(gè)額外痛點(diǎn)。更為關(guān)鍵的是,我們將深入討論這些 RAG 痛點(diǎn)的解決策
略,使我們?cè)谌粘?/span> RAG 開(kāi)發(fā)中能更好地應(yīng)對(duì)這些挑戰(zhàn)。
問(wèn)題一:內(nèi)容缺失問(wèn)題
1.1 介紹一下 內(nèi)容缺失問(wèn)題?
當(dāng)實(shí)際答案不在知識(shí)庫(kù)中時(shí),RAG 系統(tǒng)往往給出一個(gè)貌似合理卻錯(cuò)誤的答案,而不是承認(rèn)無(wú)法給
出答案。這導(dǎo)致用戶(hù)接收到誤導(dǎo)性信息,造成錯(cuò)誤的引導(dǎo)。
1.2 如何 解決 內(nèi)容缺失問(wèn)題?
“輸入什么,輸出什么。”如果源數(shù)據(jù)質(zhì)量差,比如充斥著沖突信息,那么無(wú)論你如何構(gòu)建 RAG 流
程,都不可能從雜亂無(wú)章的數(shù)據(jù)中得到有價(jià)值的結(jié)果。
2. 改進(jìn)提示方式
在知識(shí)庫(kù)缺乏信息,系統(tǒng)可能給出錯(cuò)誤答案的情況下,改進(jìn)提示方式可以起到顯著幫助。
例如,通過(guò)設(shè)置提示“如果你無(wú)法確定答案,請(qǐng)表明你不知道”
可以鼓勵(lì)模型認(rèn)識(shí)到自己的局限并更透明地表達(dá)不確定性。雖然無(wú)法保證百分百準(zhǔn)確,但在優(yōu)化數(shù)
據(jù)源之后,改進(jìn)提示方式是我們能做的最好努力之一。
問(wèn)題二:錯(cuò)過(guò)排名靠前的文檔
2.1 介紹一下 錯(cuò)過(guò)排名靠前的文檔 問(wèn)題?
有時(shí)候系統(tǒng)在檢索資料時(shí),最關(guān)鍵的文件可能并沒(méi)有出現(xiàn)在返回結(jié)果的最前面。這就導(dǎo)致了正確答
案被忽略,系統(tǒng)因此無(wú)法給出精準(zhǔn)的回答。
即:“問(wèn)題的答案其實(shí)在某個(gè)文檔里面,只是它沒(méi)有獲得足夠高的排名以致于沒(méi)能呈現(xiàn)給用戶(hù)”
2.2 如何 解決 錯(cuò)過(guò)排名靠前的文檔 問(wèn)題?
在將檢索到的結(jié)果發(fā)送給大型語(yǔ)言模型(LLM)之前,對(duì)結(jié)果進(jìn)行重新排名可以顯著提升RAG的性
能。LlamaIndex的一個(gè)筆記本展示了兩種不同方法的效果對(duì)比: