![]()
大模型幻覺問題被OpenAI研究清楚了,剛剛OpenAI發(fā)布了一篇研究論文,深入剖析了LLM幻覺的根源,指出當(dāng)前主流的訓(xùn)練與評(píng)估體系,是導(dǎo)致幻覺問題的核心驅(qū)動(dòng)因素之一
paper:
https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
研究認(rèn)為,現(xiàn)行評(píng)估標(biāo)準(zhǔn)在無形中獎(jiǎng)勵(lì)了模型的猜測(cè)行為,而非鼓勵(lì)其在面對(duì)不確定性時(shí)承認(rèn)知識(shí)的局限,幻覺的起源于預(yù)訓(xùn)練,來自于“下一次的預(yù)測(cè)”,幻覺并非神秘現(xiàn)象,其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì),都是可以被理解的
![]()
幻覺現(xiàn)象的本質(zhì)
幻覺,指的是語言模型生成的看似合理但實(shí)際上錯(cuò)誤的陳述。這種現(xiàn)象即便在處理簡(jiǎn)單問題時(shí)也可能發(fā)生。
論文中舉了一個(gè)實(shí)例:當(dāng)一個(gè)廣泛使用的聊天機(jī)器人被問及該論文作者之一 Adam Tauman Kalai 的博士論文題目時(shí),它自信地給出了三個(gè)完全不同的答案,而這三個(gè)答案均為錯(cuò)誤信息。同樣,在被問及其生日時(shí),它也提供了三個(gè)不同的錯(cuò)誤日期。
評(píng)估體系的“應(yīng)試陷阱”
研究指出,幻覺之所以難以根除,很大程度上是因?yàn)樵u(píng)估方法設(shè)定了錯(cuò)誤的激勵(lì)導(dǎo)向。大多數(shù)評(píng)估體系以準(zhǔn)確率為核心指標(biāo),這種方式鼓勵(lì)模型去猜測(cè),而不是誠(chéng)實(shí)地表達(dá)不確定性。
這可以類比為一場(chǎng)多項(xiàng)選擇考試:考生如果遇到不會(huì)的題目,選擇猜測(cè)或許能僥幸得分,但若留空則必定是零分。同理,當(dāng)模型僅僅因其答對(duì)問題的百分比而獲得高分時(shí),它們便被訓(xùn)練得更傾向于猜測(cè),而不是回答我不知道。
例如,當(dāng)模型被問及一個(gè)它不知道的生日時(shí),如果猜測(cè)9月10日,有1/365的概率正確。但如果回答我不知道,得分則為零。在海量測(cè)試中,習(xí)慣猜測(cè)的模型在排行榜上的分?jǐn)?shù),會(huì)超過那些謹(jǐn)慎承認(rèn)不確定性的模型
數(shù)據(jù)佐證:高準(zhǔn)確率并不意味著低錯(cuò)誤率
為了具體說明這一點(diǎn),論文引用了GPT-5系統(tǒng)卡中關(guān)于SimpleQA評(píng)估的數(shù)據(jù),對(duì)兩款模型進(jìn)行了比較:
指標(biāo)
gpt-5-thinking-mini
OpenAI o4-mini (舊模型)
拒絕回答率
(不給出具體答案)
52%
1%
準(zhǔn)確率
(答案正確)
22%
24% 錯(cuò)誤率
(答案錯(cuò)誤,即幻覺率)
26%
75% 總計(jì)
100%
100%
數(shù)據(jù)顯示,舊的OpenAI o4-mini模型在準(zhǔn)確率上略勝一籌(24% vs 22%)。然而,其代價(jià)是高達(dá)75%的錯(cuò)誤率(幻覺率)。這清晰地表明,模型通過策略性猜測(cè)雖然能微幅提升準(zhǔn)確率,但會(huì)引發(fā)災(zāi)難性的錯(cuò)誤率增長(zhǎng)。
然而,行業(yè)內(nèi)普遍以準(zhǔn)確率為導(dǎo)向的排行榜,激勵(lì)著開發(fā)者構(gòu)建更傾向于冒險(xiǎn)猜測(cè)的模型。這解釋了為何即使技術(shù)在進(jìn)步,模型幻覺的問題依然存在。
幻覺的起源:來自“下一個(gè)詞預(yù)測(cè)”
這些高度具體的事實(shí)性錯(cuò)誤最初從何而來?研究指出,根源在于模型的預(yù)訓(xùn)練方式。語言模型通過在海量文本中預(yù)測(cè)下一個(gè)詞來進(jìn)行學(xué)習(xí)。這個(gè)過程中,數(shù)據(jù)本身沒有“真/假”標(biāo)簽,模型只能學(xué)習(xí)語言的流暢模式
拼寫、語法等遵循著強(qiáng)烈的、一致的模式,因此隨著模型規(guī)模增大,這類錯(cuò)誤會(huì)減少。但是,像某人生日這樣的低頻、任意性事實(shí),在文本中缺乏可預(yù)測(cè)的模式。模型無法僅從上下文推斷出這類事實(shí),因此在被問及時(shí),只能基于統(tǒng)計(jì)概率進(jìn)行創(chuàng)作,從而導(dǎo)致幻覺。
關(guān)于幻覺的五大常見誤區(qū)
基于上述分析,該論文對(duì)關(guān)于幻覺的五大常見誤區(qū)進(jìn)行了澄清:
誤區(qū)一:幻覺是不可避免的。
研究發(fā)現(xiàn):并非如此。語言模型完全可以選擇在不確定時(shí)拒絕回答,從而避免幻覺。
誤區(qū)二:只要準(zhǔn)確率達(dá)到100%,幻覺就能被消除。
研究發(fā)現(xiàn):準(zhǔn)確率永遠(yuǎn)無法達(dá)到100%。因?yàn)楝F(xiàn)實(shí)世界中總存在一些本質(zhì)上無法回答或信息不足的問題。
誤區(qū)三:避免幻覺需要極高的智能,只有大模型才能做到。
研究發(fā)現(xiàn):對(duì)小模型而言,認(rèn)識(shí)到自身的局限反而更容易。一個(gè)不了解某個(gè)領(lǐng)域的模型可以輕易地說我不知道,而一個(gè)略知一二的模型則需要更復(fù)雜的計(jì)算來判斷自身回答的置信度。
誤區(qū)四:幻覺是語言模型中一個(gè)神秘的技術(shù)故障。
研究發(fā)現(xiàn):幻覺并非神秘現(xiàn)象。其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì),都是可以被理解的
誤區(qū)五:只要有一個(gè)好的幻覺評(píng)估標(biāo)準(zhǔn),問題就能解決。
研究發(fā)現(xiàn):即使存在專門的幻覺評(píng)估標(biāo)準(zhǔn),在數(shù)百個(gè)以準(zhǔn)確率為核心的傳統(tǒng)評(píng)估標(biāo)準(zhǔn)面前,其影響力也微乎其微。
未來的方向:改革評(píng)估體系
研究報(bào)告最終的結(jié)論是,解決幻覺問題的關(guān)鍵在于對(duì)現(xiàn)有評(píng)估體系進(jìn)行根本性改革。研究人員倡議,新的評(píng)估標(biāo)準(zhǔn)應(yīng)該對(duì)自信的錯(cuò)誤答案施加比承認(rèn)不確定性更重的懲罰。只有當(dāng)整個(gè)行業(yè)的“計(jì)分規(guī)則”發(fā)生改變,才能真正激勵(lì)開發(fā)者采納能夠減少幻覺的技術(shù)和策略。
參考:
https://openai.com/index/why-language-models-hallucinate/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.