網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

為什么大模型會(huì)產(chǎn)生幻覺？OpenAI最新研究終于搞清楚了

2025-09-06 06:21:16　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

大模型幻覺問題被OpenAI研究清楚了，剛剛OpenAI發(fā)布了一篇研究論文，深入剖析了LLM幻覺的根源，指出當(dāng)前主流的訓(xùn)練與評(píng)估體系，是導(dǎo)致幻覺問題的核心驅(qū)動(dòng)因素之一

paper：

https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

研究認(rèn)為，現(xiàn)行評(píng)估標(biāo)準(zhǔn)在無形中獎(jiǎng)勵(lì)了模型的猜測(cè)行為，而非鼓勵(lì)其在面對(duì)不確定性時(shí)承認(rèn)知識(shí)的局限，幻覺的起源于預(yù)訓(xùn)練，來自于“下一次的預(yù)測(cè)”，幻覺并非神秘現(xiàn)象，其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制，以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì)，都是可以被理解的

幻覺現(xiàn)象的本質(zhì)

幻覺，指的是語言模型生成的看似合理但實(shí)際上錯(cuò)誤的陳述。這種現(xiàn)象即便在處理簡(jiǎn)單問題時(shí)也可能發(fā)生。

論文中舉了一個(gè)實(shí)例：當(dāng)一個(gè)廣泛使用的聊天機(jī)器人被問及該論文作者之一 Adam Tauman Kalai 的博士論文題目時(shí)，它自信地給出了三個(gè)完全不同的答案，而這三個(gè)答案均為錯(cuò)誤信息。同樣，在被問及其生日時(shí)，它也提供了三個(gè)不同的錯(cuò)誤日期。

評(píng)估體系的“應(yīng)試陷阱”

研究指出，幻覺之所以難以根除，很大程度上是因?yàn)樵u(píng)估方法設(shè)定了錯(cuò)誤的激勵(lì)導(dǎo)向。大多數(shù)評(píng)估體系以準(zhǔn)確率為核心指標(biāo)，這種方式鼓勵(lì)模型去猜測(cè)，而不是誠(chéng)實(shí)地表達(dá)不確定性。

這可以類比為一場(chǎng)多項(xiàng)選擇考試：考生如果遇到不會(huì)的題目，選擇猜測(cè)或許能僥幸得分，但若留空則必定是零分。同理，當(dāng)模型僅僅因其答對(duì)問題的百分比而獲得高分時(shí)，它們便被訓(xùn)練得更傾向于猜測(cè)，而不是回答我不知道。

例如，當(dāng)模型被問及一個(gè)它不知道的生日時(shí)，如果猜測(cè)9月10日，有1/365的概率正確。但如果回答我不知道，得分則為零。在海量測(cè)試中，習(xí)慣猜測(cè)的模型在排行榜上的分?jǐn)?shù)，會(huì)超過那些謹(jǐn)慎承認(rèn)不確定性的模型

數(shù)據(jù)佐證：高準(zhǔn)確率并不意味著低錯(cuò)誤率

為了具體說明這一點(diǎn)，論文引用了GPT-5系統(tǒng)卡中關(guān)于SimpleQA評(píng)估的數(shù)據(jù)，對(duì)兩款模型進(jìn)行了比較：

指標(biāo)

gpt-5-thinking-mini

OpenAI o4-mini (舊模型)

拒絕回答率

(不給出具體答案)

52%

準(zhǔn)確率

(答案正確)

22%

24% 錯(cuò)誤率

(答案錯(cuò)誤，即幻覺率)

26%

75% 總計(jì)

100%

數(shù)據(jù)顯示，舊的OpenAI o4-mini模型在準(zhǔn)確率上略勝一籌（24% vs 22%）。然而，其代價(jià)是高達(dá)75%的錯(cuò)誤率（幻覺率）。這清晰地表明，模型通過策略性猜測(cè)雖然能微幅提升準(zhǔn)確率，但會(huì)引發(fā)災(zāi)難性的錯(cuò)誤率增長(zhǎng)。

然而，行業(yè)內(nèi)普遍以準(zhǔn)確率為導(dǎo)向的排行榜，激勵(lì)著開發(fā)者構(gòu)建更傾向于冒險(xiǎn)猜測(cè)的模型。這解釋了為何即使技術(shù)在進(jìn)步，模型幻覺的問題依然存在。

幻覺的起源：來自“下一個(gè)詞預(yù)測(cè)”

這些高度具體的事實(shí)性錯(cuò)誤最初從何而來？研究指出，根源在于模型的預(yù)訓(xùn)練方式。語言模型通過在海量文本中預(yù)測(cè)下一個(gè)詞來進(jìn)行學(xué)習(xí)。這個(gè)過程中，數(shù)據(jù)本身沒有“真/假”標(biāo)簽，模型只能學(xué)習(xí)語言的流暢模式

拼寫、語法等遵循著強(qiáng)烈的、一致的模式，因此隨著模型規(guī)模增大，這類錯(cuò)誤會(huì)減少。但是，像某人生日這樣的低頻、任意性事實(shí)，在文本中缺乏可預(yù)測(cè)的模式。模型無法僅從上下文推斷出這類事實(shí)，因此在被問及時(shí)，只能基于統(tǒng)計(jì)概率進(jìn)行創(chuàng)作，從而導(dǎo)致幻覺。

關(guān)于幻覺的五大常見誤區(qū)

基于上述分析，該論文對(duì)關(guān)于幻覺的五大常見誤區(qū)進(jìn)行了澄清：

誤區(qū)一：幻覺是不可避免的。

研究發(fā)現(xiàn)：并非如此。語言模型完全可以選擇在不確定時(shí)拒絕回答，從而避免幻覺。

誤區(qū)二：只要準(zhǔn)確率達(dá)到100%，幻覺就能被消除。

研究發(fā)現(xiàn)：準(zhǔn)確率永遠(yuǎn)無法達(dá)到100%。因?yàn)楝F(xiàn)實(shí)世界中總存在一些本質(zhì)上無法回答或信息不足的問題。

誤區(qū)三：避免幻覺需要極高的智能，只有大模型才能做到。

研究發(fā)現(xiàn)：對(duì)小模型而言，認(rèn)識(shí)到自身的局限反而更容易。一個(gè)不了解某個(gè)領(lǐng)域的模型可以輕易地說我不知道，而一個(gè)略知一二的模型則需要更復(fù)雜的計(jì)算來判斷自身回答的置信度。

誤區(qū)四：幻覺是語言模型中一個(gè)神秘的技術(shù)故障。

研究發(fā)現(xiàn)：幻覺并非神秘現(xiàn)象。其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制，以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì)，都是可以被理解的

誤區(qū)五：只要有一個(gè)好的幻覺評(píng)估標(biāo)準(zhǔn)，問題就能解決。

研究發(fā)現(xiàn)：即使存在專門的幻覺評(píng)估標(biāo)準(zhǔn)，在數(shù)百個(gè)以準(zhǔn)確率為核心的傳統(tǒng)評(píng)估標(biāo)準(zhǔn)面前，其影響力也微乎其微。

未來的方向：改革評(píng)估體系

研究報(bào)告最終的結(jié)論是，解決幻覺問題的關(guān)鍵在于對(duì)現(xiàn)有評(píng)估體系進(jìn)行根本性改革。研究人員倡議，新的評(píng)估標(biāo)準(zhǔn)應(yīng)該對(duì)自信的錯(cuò)誤答案施加比承認(rèn)不確定性更重的懲罰。只有當(dāng)整個(gè)行業(yè)的“計(jì)分規(guī)則”發(fā)生改變，才能真正激勵(lì)開發(fā)者采納能夠減少幻覺的技術(shù)和策略。

參考：

https://openai.com/index/why-language-models-hallucinate/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.