![]()
最近,網上出現了一個 AI 幻覺引發的鬧劇。
7 月 2 日,網上突然出現大量 “ DeepSeek 就 AI 模型違規關聯向王一博道歉 ” 相關內容,最終被發現其實是 DeepSeek 在對話中虛構了事件甚至引用了一份在中國裁判文書網上完全查不到的判決書。
而這場鬧劇,源于 DeepSeek 在與用戶對話過程中產生的幻覺。借此,知危編輯部認為有必要探討一下 AI 大模型們激增的幻覺率了。
前段時間,OpenAI o3 模型剛發布不久,也因為幻覺率 “ 不降反升 ” 的現象引發了廣泛關注。
OpenAI o3 模型會犯很多匪夷所思的錯誤。比如,捏造從未運行過的代碼,在編碼設置中使用無效的非 ASCII 破折號,甚至還會假裝自己在調用工具。
在 PersonQA 基準測試中,o3 會在 33% 的問答中出現幻覺,幾乎是o1( 16% )的 2 倍,o4-mini 的幻覺率更是高達 48%,遠高于此前發布的推理模型。
近期發布的其他深度思考模型也出現了類似的規律,即隨著推理能力增強,其幻覺率也反而更高。
艾倫人工智能研究所科學家 Nathan Lambert 曾發文評論 o3 的推理幻覺,表示這一問題的出現是由于 RL( 強化學習 )過度優化。
比如典型的“ 獎勵黑客 ” 現象,Nathan Lambert 舉了一個例子,他們曾在 MuJoCo 環境中讓一只獵豹學會快速奔跑,最終獵豹通過側手翻動作而不是跑步實現了最大的前進速度。類似地,o3 假裝使用工具很可能是由于 o3 在訓練時若成功調用工具能使其獲得獎勵。
對應到推理模型,則表現為答案是正確的,但推理過程卻是錯誤的,或者和答案無嚴密的邏輯關系。( 這是一種更新型的幻覺,和 DeepSeek 造謠給王一博道歉事件中的事實性幻覺有區別 )
斯坦福大學團隊[1]總結了這些怪異行為的類型,包括跳過中間關鍵步驟,代入特殊數值來猜測一般規律,數值近似粗糙,邏輯推導沒有閉合,甚至未使用真正的數學語言等。研究團隊通過系統評估還發現,Grok3 mini 最終答案正確率達 71.5%,但推理過程正確率僅為 6.0% 。
上海交通大學計算機系教授、博士生導師、副系主任張偉楠( 主要研究方向為強化學習、決策大模型等 )告訴知危,“ 說 o3 是被強化學習過度優化導致幻覺增加,其實說明人類不知道自己想要什么。”
“發展到這一階段其實很正常。強化學習可以優化大模型在某些任務( 例如數學和代碼 )的性能。而這些能力提升后,人們又開始關注它的幻覺問題,覺得大模型吐出來的話不正常。這樣的情況在其它強化學習應用場景中也經常發現,例如人們首先訓練機器人要走得快,但后來又覺得機器人走得不漂亮。”
天津大學智算學部教授、華為諾亞決策推理實驗室主任郝建業( 主要研究方向為深度強化學習、多智能體系統等 )也同意問題根源在于強化學習,他向知危表示:“ 強化學習的學習范式,主要的監督信號就是最終結果是否正確。而大模型本身的推理過程,尤其是數學題那種多步推理,是一個非常長的多步決策過程。但強化學習比如 GRPO( 一種強化學習算法 )只在最后一步給出獎勵,就可能導致模型學到的最終結果是正確的,但中間的推理過程是錯誤的。模型可能會發展出一些錯誤但高效的策略,這就是所謂的 ‘ 幻覺 ’ 現象的來源。”
“ 整體來看,現在大家用強化學習訓練大模型來實現慢思考,其實還處于一個比較初級階段,基本上還是用比較標準的強化學習方法。特別是在線的訓練方法,包括 GRPO 也只是 PPO 的一個變種,本質上和 PPO 沒有區別。”
倫敦大學學院計算機系教授汪軍( 主要研究方向為強化學習、多智能體等 )對此進行了深入的實驗研究,他向知危表示 “ 現在主流的強化學習方法比如 GRPO 等,或者通過提示來鼓勵模型在輸出結果之前先思考的方法,都有很多問題,其中一個問題是模型的思考過程沒有被 regularized( 正則化 )或規整、規范,這就導致它所謂的思考過程可能并不符合人的邏輯。”
“ 具體來說,我們使用 DeepSeek R1 等模型在 AIME 基準測試上進行測試,并對所有 AIME 中的數學難題的錯誤和正確案例都進行了分析,發現當模型嘗試最大化獎勵而忽略思考過程的規范性時,其推理的邏輯不一定是對的,存在大量的重復或冗余,但最后還是能給出正確答案。這類現象可以理解為走捷徑。”
“ 對此我是比較失望的。所以盡管人們相繼提出了 GRPO 等各種強化學習算法,但沒有一個算法真正抓住了問題的關鍵。”
“ 人們也嘗試突破 GRPO 等算法的局限性。比如我們有一個方法是這樣的:假設 x 是輸入,y 是輸出,我們讓模型具備這樣的能力 —— 在已知 x 的情況下,給定之前的 y,反過來推出 x。經過這樣的訓練,模型就可以不斷地提高它的輸出能力,對強化學習有很大的提升。”
“ 目前人們并沒有關注如何對思考過程做 regularized。我們會關注這個方向,是因為本質上,大多數在線強化學習訓練中,thinking( 推理 )階段是沒有正確答案的。因為沒有任何事實來告訴模型思考過程應該是怎樣的,所以本質上它是隱性的。如果只在輸出結果的時候提供一個獎勵,那對于中間這個隱性的過程,如果不加 regularized,就可能是任何東西。”
“ 從另外一個維度,無論思維鏈是用 token 的形式( 包含在輸出中 ),還是 latent 的形式( 不包含在輸出中 ),只是不同的方法。latent 形式可能效率更高或更快,在有實時性要求的任務中更合適,但可解釋性不強。當然也可以做成混合的方式,訓練時用顯式的 token 形式,但在執行時如果不需要輸出這些 token,則用 latent 的形式執行就可以。還有一個可能,在大模型和小模型之間,用 latent 的方式來傳遞信息,也是可以實現的。”
“當然,將這種現象稱作幻覺,不一定準確,有一定誤導性。過去討論的大語言模型的幻覺主要屬于事實性錯誤,是由于 AI 生成的概率性而導致的必然結果。而 AI 的推理過程和人類不同,答案卻是正確的,只是 GRPO 等算法的獎勵設置對中間過程缺乏約束的結果。”
張偉楠教授進一步解釋道,“ 這類推理模型的訓練中使用的數據,可能已經包含了相當一部分大模型( 或者智能體 )通過強化學習與環境交互得出的 CoT( Chain of Thought,思維鏈 )數據。也就是說,交互數據本身就是憑空生成的,不是完全來自人類的數據。”
“ 這些 CoT 數據一般會經過校驗,也就是通過校驗器判斷思考過程最終確實導致了任務的完成,然后這條思維鏈就會被用作訓練數據。”
“但是這些思維鏈鏈的具體過程,在語句、語法、自然語言層面是否標準或優雅,人們其實并不關注。于是,這勢必會讓后訓練之后的大語言模型 ‘ 說人話 ’ 的能力出現一定偏移。但它在解決專業任務的能力上,比如解題,比如智能體的規劃、決策等,整體是變強了。”
“ 再深入一層,就涉及強化學習的核心組成 ‘ 獎勵函數 ’ 了。其實人類目前還不知道正確、完美的獎勵函數該怎么設計。更本質的原因則是上面說的,人類不知道自己真正要什么。”
郝建業教授也強調,“ 設計合理的獎勵函數是強化學習方法中最關鍵的一點,同時也是最痛的一個點。”
獎勵模型可分為結果級( ORM )和過程級( PRM ),ORM 容易讓模型通過錯誤的推理路徑得到正確答案,因此有必要引入 PRM 來監督推理過程。但 PRM 方法本身實現很困難,比如訓練數據收集成本高。
“ 不只是數據成本高,中間過程的 PRM 定義本身就非常困難。因此一種解決方式是通過手動或者半自動的方法,更好地定義中間過程的獎勵,用來引導模型,盡量減少中間推理過程中的幻覺問題。”
“ 另外也可以考慮借鑒過去強化學習中的一些技術,比如如何進行獎勵分配——也就是說,怎么把最終的獎勵合理地分配到中間的每一個步驟,從而為中間過程自動設計出更準確的獎勵值。”
然而問及近兩年獎勵函數設計方面的發展情況,張偉楠教授向知危直言道,“ 沒什么像樣的發展。”
獎勵函數設計難在哪里?其實是源于大模型作為智能體,要實現持續進步,甚至超越人類,需要與復雜度越來越大的環境進行交互。
張偉楠教授解釋道,“ 將強化學習應用到大模型,推動了大模型和智能體之間邊界逐漸模糊的趨勢。比如 OpenAI 的 DeepResearch 也是一個模型,在 pretrain 階段完全用 next token 的方式,直接輸出調工具的命令( 憑空生成一個工具 token,這個工具 token 對應的是一個可被調用的 API ),根本不需要像智能體那樣從 prompt 去選擇調用工具。”
“ 以前讓智能體模型能夠和環境交互的是可執行框架,作用是把環境給的感知信號轉換成大語言模型能理解的語言 token,大語言模型輸出的 token 又可以轉化成對環境下達任務、下達動作的控制指令。但這其實就是一層框架。現在智能體模型本身就可以去做這件事。但問題在于,你就得把這些任務相關的數據在預訓練的時候全都輸入大語言模型里。”
“ 可是這樣的任務種類是成千上萬種,不可窮盡的。不可能在一次訓練中,對于每一種任務,人們都能交互出適合完成它的數據,然后再讓大語言模型用 next token decision 的方法統一進行訓練。”
“ 所以,這是一個永遠存在的主流任務和 outlier 或者數量多、范圍窄的邊緣任務之間的權衡關系。比如 DeepResearch 重點挑選的是一些專業任務,比如調研、科學研究、市場調研、數學、編程等任務。但前提是,你必須在訓練階段就選好這幾類任務。但如果我突然有一天想用大模型處理點外賣這種任務,它可能就做不了,因為它壓根沒見過點外賣的 API。”
“ 所以要提高推理模型的泛化性,還是需要更多從外部去強化交互。接下來的發展,無論是智能體還是大模型,都需要和動態環境進行交互,產生出超越人類的數據。一個是數量上超越人類沉淀下來的所有文本數據,另一個是從數據性能指標上超越人類。”
“如果永遠只是模仿人類,比如模仿人類怎么寫文字,它最多只能在融會貫通這個維度上超過人類。而確實,大語言模型在融會貫通上已經超過人類了。”
“如果它的發展上限被 ‘ 老師 ’( 也就是人類本身 )限制住了,那它的成長空間就很有限。比如 AlphaGo ,它必須通過與環境的交互,生成完成任務的數據,再基于這些數據調整自身參數,才能讓它真正擁有比人類更強的能力。AlphaGo 能通過自我博弈提升,主要是因為環境太簡單,可以用之前的某個版本作為對手。但現在的智能體需要和整個開放的互聯網中進行交互,環境就是互聯網,這個問題復雜得多。”
隨著模型的強化,為了防止過度優化,獎勵模型一般也需要跟著進步。所以這不僅要求交互環境要越來越開放和復雜,獎勵模型也要越來越強大。
學界對獎勵模型的研究發展緩慢。目前將獎勵函數引入大模型甚至深度思考大模型只是非常初步的進展,獎勵模型長期以來都是標量形式的輸出,這其實極大限制了其表達能力和場景適用性。
“ 實際上,強化學習并沒有真正地約束算法必須在一個標量式的獎勵信號上進行最大化。強化學習真正的定義是:只要智能體能夠和環境進行動態交互,并且基于這些交互經驗數據來提升自己的策略性,就可以了。并沒有說一定要用 MDP( Markov decision process,馬爾可夫決策過程 ),一定要有 reward function,一定要用標量式的 reward 等等,只需要環境的變化反饋。所以這種反饋完全可以是非標量式的數據,比如說一個視覺信號,或者自然語言、多模態數據等。就像人類一樣,人類的學習從來沒有完全明確的數值反饋。”
“所以,未來訓練一個大語言模型,最終的獎勵函數設計,可能更像一個評論家,來給出相關的文字性、非結構化的反饋。那么我們需要提出一種方法,讓模型能夠基于這些文字型的反饋繼續優化,比如教練說:‘ 你剛剛那個球打得不是特別好,以后揮拍的時候右手上肢的力量要更足一點 ’,基于這樣的 language feedback 來調整策略,是完全可以做到的,而且已經有一些工作在做了。”
張偉楠教授補充道,“ 從商業競爭角度來說,現在大語言模型如果基于人類的真實數據做 next token prediction 訓練,其實互相拉不開差距,只能比誰的模型更大或者在執行上更細致等。這源于數據層面的差距非常有限,因為大家使用的人類數據基本一樣。但是如果能夠自我生成全新的數據,是可以持續推動模型進步的。”
另一方面,這也反映出,目前業內測試大模型推理能力的基準,其實存在很大的局限。
“ 現在的基準沒有辦法真正評估模型的能力。說白了,人們還是傾向在一些基于規則、基于固定數據的前提下,去評測一個非常靈活的大語言模型。這就像我們想用一張試卷去評判一個人的能力,這永遠只能是片面的評判。真正判斷一個人靠不靠譜、各方面能力怎么樣,其實是需要通過合作,通過持續的、多維度的交流來評估。”
從對獎勵函數的探討中可以發現,大模型的思維鏈在強化學習的框架下,更多被看作一種環境探索路徑,這提醒我們需要重新思考推理模型的本質。
實際上,從實際效用層面,大模型的推理能力就一直受到不少質疑。
不少學者都曾表示,AI 看起來像是在推理,但其實是依靠記憶力在 “ 套模板 ”。最重要的一個依據,是它們的泛化能力非常脆弱。斯坦福大學團隊[2]發現只是變換原題目的變量名、變量取值范圍,許多推理模型的成績就大幅下降。
Anthropic 團隊還發現思維鏈可能不是給模型提供上下文,也不一定和最終答案完全相關 [3]。比如,在提示中加入關于最終答案( 可能是正確的,也可能是錯誤的 )的線索。結果模型接受了這樣的 “ 作弊小紙條 ”,并給出了正確( 或錯誤 )的答案,卻在大多數情況下,其推理思維鏈中絲毫不提使用了這個線索。
這些種種怪象更加激發了人們探索大模型推理本質的愿望。
近期,清華大學團隊[4]提出了這樣的發現:在足夠多的采樣次數下,深度思考模型和基礎模型的表現沒有區別。RLVR( 可驗證獎勵的強化學習 )并沒有給模型引入新知識,只是相比基礎模型,深度思考模型通過更少的采樣獲取正確的答案。但增加了采樣效率的同時,模型的多樣性探索能力也相應下降。這其實也契合了深度思考模型的用途,即直接解答專業問題,而不是探索型研究。
汪軍教授表示,“本質上,推理可能只是提高了模型單次采樣的計算量。有點類似于一個 Best of N 的過程,模型內部采樣了很多次,反復嘗試,最后就提高了解題的概率。”
人們甚至能用更精巧的方式,從內部機制來激發大模型的推理能力,而不需要外部獎勵。
UC Berkeley 團隊[5]指出通過鼓勵模型生成自認為 “ 更有把握 ” 的回答,就能激發模型的推理能力。
通俗來說,在訓練過程中,進行多次采樣,每次采樣生成一串 token,對整串 token 計算每個 token 預測下一個 token 時的自我確定度( 下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,自我確定度越大 )。
最后將每個 token 的自我確定度相加,就是這串 token 的自我確定度,選擇自我確定度最大的采樣輸出,即可激發或強化模型的推理能力。
他們的方法借鑒了熵的思想。熵是衡量一個系統狀態的無序或均勻程度的變量,自我確定度越大,熵越小,系統狀態越有序,相當于說,這個方法就是在 token 世界里尋找堅實的高速公路來達到目的地,而不是在混沌的大海里盲目探索。
張偉楠教授解釋道,“ 這其實可以從強化學習的角度來理解,對熵的控制是很多機器學習訓練的本質現象。在訓練過程中,如果保持較高的熵,可以有更多探索性。如果保持較低的熵,可以有更多專業性。”
“ 強化學習本身其實是建立在一個有探索能力的智能體基礎上,然后希望它能在某個任務上專業化。這個任務說到底,其實就是一套獎勵函數。如果在每個狀態上、每個位置上 ‘ 好 ’ 或 ‘ 壞 ’ 的標準被定義清楚了,就可以通過強化學習把這個智能體訓練得更擅長這個任務。但問題在于,一旦它專注于某一個任務,就會忘卻其它任務的能力,需要從頭訓練。”
推理模型還具有更令人困惑的行為,華盛頓大學團隊[6]指出了這樣的怪異事實,即便是使用和正確答案相關性極低甚至負相關的異常獎勵信號,一些模型比如 Qwen2.5-Math 也能獲得顯著的數學推理能力的提升。
研究者通過實驗觀察,提出了這樣的假設,強化學習訓練過程中,如果缺乏有效的獎勵信號,模型更傾向于在訓練中進行高頻率的探索行為,并激發和利用預訓練階段習得的潛在推理模式。
比如,Qwen2.5-Math 通過預訓練掌握了 Python 代碼推理的能力,而僅僅是多使用代碼推理本身就足以提升準確率,因此異常獎勵信號間接地提升了模型的性能。
綜上來看,訓練大模型推理能力的結果,更多是形成了一種增大計算量的或者激活了預訓練模型中已有的 token 探索的模式,而不是知識層面的能力。
盡管面臨很多質疑,但大模型推理的未來潛力依然備受期待。
大語言模型或智能體要持續進步,就需要與非常開放和復雜的外部空間進行交互、探索和學習。但就目前基于 token 序列生成的方式,效率是比較受限的。
張偉楠教授表示,“ 現在的智能體訓練確實比較費 token,也比較慢,但大家還是樂意等,原因在于它代表了一類未來技術,在未來每個人都能擁有專屬自己的 AI 助手。”
“ 大家首先關注的重點是,它具備多大的能力或多高的天花板,其次才是 token 的時延和算力消耗。往前推三年,當時推理 token 的價格偏高,現在多強競爭的局面下,真正受益的是用戶,大家能以更便宜的價格去使用這些模型。”
即便目前在邏輯推理方面還有很大局限性,但張偉楠教授也認為,大語言模型是可以學會真正的邏輯推理的。
“我對此是持樂觀態度的。第一點,人腦在做邏輯推理的時候其實也存在一定的隨機性。只是有些人,比如專業老師、成績好的學生等,會強迫自己在推理過程中嚴格遵守邏輯規則。但從本質上,人腦也是一個神經網絡,它的邏輯推理能力,是通過將自身的神經活動被嵌入到特定的邏輯規則中來實現的。”
“ 其實,現在的智能體之所以在邏輯推理上表現得比較擅長,甚至未來有可能超越邏輯學家,原因在于它已經把 token 符號本身的前后關系運算練得非常專業。我們仍然允許它保留一定的探索性和隨機性,是因為,如果它不做這些探索,就很難實現對人類的超越。”
原則上,我們需要更多關注推理模型的解決實際問題的能力,而不是與人類像不像。
邏輯類問題中存在大量離散程序搜索問題[7],比如給定一個無向圖,判斷是否可以用 3 種顏色給所有頂點著色,使得每條邊的兩個端點顏色不同。通常這類問題的嚴格求解極其困難,屬于 NP 問題。進一步看,現在很多 NP 問題的求解,本質上仍然是在一個非常大的空間中進行樹搜索的過程。
“ 比如推理模型做一道邏輯題、編程題、數學題,甚至是規劃一個公司的運營方案,其實本質上都是在一個大的狀態空間中逐步進行搜索的。就像一棵樹,從根節點出發,不斷地探索、分支,最終找到某一個葉子節點,而這個葉子節點就是一個可行的解。”
“ 在這個過程中,需要有一套基于符號、基于邏輯的校驗器,能夠判斷某個解釋是不是正確的,從而讓大語言模型學會在全局空間中搜索出有效的解。”
NP 問題的定義是:驗證一個解是否是這個問題的正確答案,如果驗證過程是多項式時間內完成的,那這個問題就被歸類為 NP 問題。所以,驗證本質上是通過一些比較簡單但精確的符號方法,在這棵巨大的樹的每一個葉子節點上,去做出直接的驗證。
但關鍵在于,怎么去搜索那些符合要求的葉子節點?
NP 問題的搜索方法理論上都是指數時間的( 窮舉法 ),而要在實際中應用,就必須尋找多項式時間的近似方法,手動找到一個具體的顯式的多項式方法非常困難。
而從大語言模型的角度看,其實它構建出了從樹的根節點到葉子節點的概率分布路徑,整個搜索的過程,是在搜索空間中沿著更高概率的路徑進行采樣,從而能以多項式時間在某些 NP 問題中找到葉子節點,即近似解或可驗證的解。
“ 要對這種分布進行建模,最適合的就是神經網絡,神經網絡實際上變成了一個求解器。”
不僅是推理模型的本質問題、實際效用方面,最后再返回到強化學習框架內探討 o3 的推理幻覺,張偉楠教授的態度依然是積極的,“ 獎勵函數設計的困境只是暫時的,在未來肯定會得到改善,并且獎勵函數會越來越全面有效。”
郝建業教授表示,“ 未來的關鍵在于,如何將過去十年深度強化學習時代的技術,融合進大模型時代,來更好地解決大模型強化學習的高效訓練問題。我相信因為大家對強化學習已有很好的前期積累,所以肯定會朝這個方向繼續探索。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.