![]()
近期,OpenAI 發布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發了廣泛關注。
他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現幻覺,并非由于模型架構的失靈,而是當前技術社區的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數。
換句話說,大多數評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數高。
預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。
OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。
![]()
OpenAI據此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當的不確定表達給出適當分數,使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。
可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區的 “ 激勵設計 ” 問題。
如果真的往這個方向發展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產品規則,讓模型在不確定時自然地說:“ 我不知道 ”。
技術社區對該話題討論熱烈,其中對論文的詬病也不少。
有人認為這篇論文既不新穎,水平也不高,即相關研究早已經出現,并且這篇論文的技術水平更像是初級研究人員寫出來的。
紐約大學數據中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。
![]()
有人指出,問題的核心其實在于,幻覺的概念實際上到現在為止都還沒有被嚴格地定義。
雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。
幻覺的本質,或許可以用一個很簡單的例子來說明。
以機器學習中的曲線擬合為例,假設下圖的數據點是被用于訓練的事實,我們需要擬合一條曲線來對數據進行回歸,使其能夠準確地預測新數據。這條曲線,代表的就是模型。
![]()
圖源:網絡
嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。
比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數據準確率高 ),但泛化性弱( 測試數據準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數據準確率低 ),但泛化性強( 測試數據準確率高 )。
不同曲線,可以生成不同的新數據。而任何曲線,生成的不同于訓練數據的新數據,都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現實進行直接對比校驗,其它方式都是間接性的。
而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。
近期的理論研究比如 2024 年發表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數據之外進行泛化的模型,要么會產生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。
所以,如果保證訓練數據和測試數據( 或實際應用數據 )在大致相同的數據分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。
假設 “ 低幻覺 ” 大模型發展成了這個樣子,那其實它基本上就是更高效地串聯已知事實點、知識點的自然語言搜索引擎而已。
這會是OpenAI希望的結果嗎?我們假設是,然后繼續推測一下。
回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現方面,OpenAI 指出,大模型在拼寫和括號等細節基本不會出錯,但在低頻任意事實上很容易出錯。
他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數據沒有錯誤,產生幻覺的概率也接近于訓練數據中恰好出現一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經常引用的事實上出錯,例如愛因斯坦的生日或論文標題。
并且,該論文還指出,沒有統計學理由表明預訓練會導致對訓練數據中可能出現多次的事實( 例如對文章、書籍的引用 )或系統性事實( 例如算術計算 )產生幻覺。
所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現的事實,則很可能出錯,這時候大模型會選擇拒絕回答。
這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產品的構建或企業 AI( 企業 AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。
而且,企業數據通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業更好地優化模型。
但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?
當然,這只是一種對 OpenAI 描繪的設想在經典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。
這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。
當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。
最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。
后續研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。
目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。
![]()
圖源:DEEP THINK WITH CONFIDENCE
置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據。
如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。
![]()
圖源:網絡
客觀來講,關于置信度的相關研究確實已經出現,而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。
甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統計上有效。論文《 Just Ask for Calibration 》通過實驗發現,在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。
OpenAI 這篇論文的創新之處不在于提出的方法,更像是一種面向大模型技術社區的倡議,如果社區集體能夠認同其觀點,后續大模型將會朝著不鼓勵猜測答案的方向發展。
在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。
而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。
那么,OpenAI 如此倡導,背后有沒有更深層次的理由?
結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業AI的重要性,企業數據的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。
只能猜測,OpenAI 希望社區認可 GPT-5的 成就,強調 GPT-5 或后續模型( 如果有的話 )對AI Agent、企業應用的優勢所在。
以及,他們自己也要認真做應用了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.