<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI的新論文,為什么被業內嘲諷是營銷?

      0
      分享至



      近期,OpenAI 發布了一篇新論文《 Why Language Models Hallucinate 》,指出當前大模型幻覺的主要來源,引發了廣泛關注。

      他們給出了一個簡潔卻顛覆性的解釋:大模型之所以出現幻覺,并非由于模型架構的失靈,而是當前技術社區的訓練與評測機制傾向于獎勵猜測,并且懲罰承認不確定的行為,迫使模型在高度不確定時,也傾向猜測性作答以博取準確率分數。

      換句話說,大多數評估基準采用一種 “ 應試考試 ” 的方式,迫使大語言模型成為 “ 應試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個甚至蒙一個,這樣在概率上也比不答分數高。

      預訓練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個過程中接觸任何拒絕回答的示例,所以自然學不會這種拒絕回答的行為。

      OpenAI 拿自家模型舉了一個例子,在 SimpleQA 基準中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準確率略高( 22% vs. 24% ),但也有高得多的錯誤率( 75% vs. 26% ),因為它更少 “ 棄答 ”。



      OpenAI據此主張:在往后的評估基準中,應對高自信的錯誤施以懲罰,并為恰當的不確定表達給出適當分數,使激勵從 “ 大膽猜 ” 轉向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準確率 ” 一項稱王的局面。

      可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉化為技術社區的 “ 激勵設計 ” 問題。

      如果真的往這個方向發展,以后真正值得關注的,將不再是誰的準確率小幅上漲,而是誰愿意重寫評測與產品規則,讓模型在不確定時自然地說:“ 我不知道 ”。

      技術社區對該話題討論熱烈,其中對論文的詬病也不少。

      有人認為這篇論文既不新穎,水平也不高,即相關研究早已經出現,并且這篇論文的技術水平更像是初級研究人員寫出來的。

      紐約大學數據中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



      有人指出,問題的核心其實在于,幻覺的概念實際上到現在為止都還沒有被嚴格地定義。

      雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機性、滾雪球效應、長尾訓練樣本、誤導性對齊訓練、虛假相關性、曝光偏差、逆轉詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

      幻覺的本質,或許可以用一個很簡單的例子來說明。

      以機器學習中的曲線擬合為例,假設下圖的數據點是被用于訓練的事實,我們需要擬合一條曲線來對數據進行回歸,使其能夠準確地預測新數據。這條曲線,代表的就是模型。



      圖源:網絡

      嚴格意義上來講,不存在唯一正確的模型。因為每一種模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

      比如上圖中最右邊的復雜曲線擬合度更強甚至過擬合( 訓練數據準確率高 ),但泛化性弱( 測試數據準確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓練數據準確率低 ),但泛化性強( 測試數據準確率高 )。

      不同曲線,可以生成不同的新數據。而任何曲線,生成的不同于訓練數據的新數據,都有可能是錯的,也就是都有可能是幻覺。至于幻覺的確認,原則是只能與現實進行直接對比校驗,其它方式都是間接性的。

      而且,機器學習或大語言模型其實都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點的范圍內估計未知值。

      近期的理論研究比如 2024 年發表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內容 )之間的內在權衡。這些研究表明,對于廣泛的語言類別,任何在其訓練數據之外進行泛化的模型,要么會產生幻覺,要么會遭遇模式崩潰,無法生成所有有效的響應。

      所以,如果保證訓練數據和測試數據( 或實際應用數據 )在大致相同的數據分布范圍內,并且模型是過擬合的,基本能保證很低的錯誤率或幻覺率。

      假設 “ 低幻覺 ” 大模型發展成了這個樣子,那其實它基本上就是更高效地串聯已知事實點、知識點的自然語言搜索引擎而已。

      這會是OpenAI希望的結果嗎?我們假設是,然后繼續推測一下。

      回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現方面,OpenAI 指出,大模型在拼寫和括號等細節基本不會出錯,但在低頻任意事實上很容易出錯。

      他們引用了一個有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓練數據沒有錯誤,產生幻覺的概率也接近于訓練數據中恰好出現一次的事實的比例( “ Good-Turing ” 估計 )。相比之下,大型語言模型很少會在經常引用的事實上出錯,例如愛因斯坦的生日或論文標題。

      并且,該論文還指出,沒有統計學理由表明預訓練會導致對訓練數據中可能出現多次的事實( 例如對文章、書籍的引用 )或系統性事實( 例如算術計算 )產生幻覺。

      所以,盡管這個自然語言搜索引擎很死板,但在使用時,對于查詢提示詞的拼寫、標點符號、語言表達習慣等還是能做出靈活的響應,并且對于人類多次引用或應用的知識、事實,基本能保證準確。如果是涉及單次出現的事實,則很可能出錯,這時候大模型會選擇拒絕回答。

      這樣的大模型自然會變得很安全、可靠。對于 AI Agent 產品的構建或企業 AI( 企業 AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因為要發揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯誤累積的乘積效應。

      而且,企業數據通常領域獨立、長尾、稀疏,訓練出來的大模型潛在的幻覺點會很多,增加拒答率,其實類似于在代碼里增加了 Bug 日志,可以幫助企業更好地優化模型。

      但另一方面,我們能信任這個死板的自然語言搜索引擎的泛化能力嗎?也就是應對實際新問題的能力?

      當然,這只是一種對 OpenAI 描繪的設想在經典概念上的理解。對于泛化能力這一部分,其實目前沒有很好的量化方法。

      這個 “ 低幻覺 ” 大模型將不會只能解決已知場景下的問題。至于在解決一個具體問題時,是否保證準確,還是需要一些間接指標來判斷。

      當前并沒有很好地自動化檢測幻覺的方法,很多復雜的檢測方法,甚至只和分析響應長度方法效果相當。

      最簡單粗暴的方法,就是讓 LLM 生成多個獨立答案,然后比較這些答案的一致性,但計算成本高昂,因為每個查詢都需要生成多個答案。

      后續研究則在這個基礎上,利用多個答案之間的重復部分的緩存來節省計算成本。另一些方法則是比較不同模型對同一個查詢的輸出差異來分析幻覺。

      目前可能最高效的方法,是在推理過程中,一邊推理,一邊計算模型內部的置信度信號,在推理過程中或推理結束后動態過濾掉低質量的推理路徑。該方法無需額外的模型訓練或超參數調整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達到了 99.9% 的 “ @512 準確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



      圖源:DEEP THINK WITH CONFIDENCE

      置信度是非常典型的度量大模型自信程度的信號,這也是 OpenAI 指出的大模型拒絕回答時的依據。

      如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個 token 時,下一個 token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個 token 的概率分布就比較符合高置信度的特點。



      圖源:網絡

      客觀來講,關于置信度的相關研究確實已經出現,而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個獨立答案再分析一致性的方式,也是一種度量置信度的方法。

      甚至,你可以直接讓大模型在輸出時,附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達置信度。這就有點 “ 玄學 ” 的味道了,但確實實驗統計上有效。論文《 Just Ask for Calibration 》通過實驗發現,在提示詞中加入不確定性表達,可以顯著提高 GPT-3 答案的準確性和模型校準度。

      OpenAI 這篇論文的創新之處不在于提出的方法,更像是一種面向大模型技術社區的倡議,如果社區集體能夠認同其觀點,后續大模型將會朝著不鼓勵猜測答案的方向發展。

      在論文中,OpenAI 也確實指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會技術緩解措施來解決 ”。

      而作為大模型時代的奠基者,OpenAI 確實具備這樣的號召力。

      那么,OpenAI 如此倡導,背后有沒有更深層次的理由?

      結合 GPT-5 的低幻覺招牌,低幻覺率對 AI Agent、企業AI的重要性,企業數據的稀疏性,以及 OpenAI 近期的關鍵舉措,包括收購并合并 io Products 推進硬件布局、成立 “ 應用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

      只能猜測,OpenAI 希望社區認可 GPT-5的 成就,強調 GPT-5 或后續模型( 如果有的話 )對AI Agent、企業應用的優勢所在

      以及,他們自己也要認真做應用了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      外交部:中方始終按照相互尊重、和平共處、合作共贏處理中美關系

      外交部:中方始終按照相互尊重、和平共處、合作共贏處理中美關系

      每日經濟新聞
      2025-11-05 19:24:43
      美媒:確信特朗普“不會支持臺灣”,不信可以問問澤連斯基

      美媒:確信特朗普“不會支持臺灣”,不信可以問問澤連斯基

      八斗小先生
      2025-11-06 09:37:45
      300億收購夢碎!聞泰科技手中的安世只剩“空殼”

      300億收購夢碎!聞泰科技手中的安世只剩“空殼”

      風風順
      2025-10-14 10:09:49
      青島西海岸投資人告別邵佳一:愿你前程似錦,再見亦如初

      青島西海岸投資人告別邵佳一:愿你前程似錦,再見亦如初

      懂球帝
      2025-11-06 08:45:06
      長沙垮塌事件!19歲女孩擺空靈堂,剛離家3小時,百萬賠償是謠言

      長沙垮塌事件!19歲女孩擺空靈堂,剛離家3小時,百萬賠償是謠言

      鋭娛之樂
      2025-11-05 10:26:54
      黃金稅收是禿子頭上的虱子,答案擺在明面上的話題

      黃金稅收是禿子頭上的虱子,答案擺在明面上的話題

      記憶承載
      2025-11-05 11:31:11
      美國試射民兵III導彈,克里姆林宮回應耐人尋味

      美國試射民兵III導彈,克里姆林宮回應耐人尋味

      書中自有顏如玉
      2025-11-06 09:27:42
      為什么電影里很多黑幫老大堅決不做毒品生意?網友評論引萬千共鳴

      為什么電影里很多黑幫老大堅決不做毒品生意?網友評論引萬千共鳴

      小椰的奶奶
      2025-10-27 02:51:34
      37歲景甜在安徽小鎮被偶遇,她打扮樸素,皮膚白皙 嬌俏可愛,好美

      37歲景甜在安徽小鎮被偶遇,她打扮樸素,皮膚白皙 嬌俏可愛,好美

      草莓解說體育
      2025-11-05 09:38:12
      國米小勝獎金累計840萬,3500萬中場表現不佳或離隊

      國米小勝獎金累計840萬,3500萬中場表現不佳或離隊

      陳錈愛體育
      2025-11-06 09:18:28
      太突然!央視宣布撤檔!

      太突然!央視宣布撤檔!

      臺州交通廣播
      2025-11-05 20:31:05
      轉會傳聞:利物浦為后衛開出創紀錄報價,弗利克將辭去巴薩隊帥位

      轉會傳聞:利物浦為后衛開出創紀錄報價,弗利克將辭去巴薩隊帥位

      老籣說體育
      2025-11-06 09:22:23
      重要賽事!11月6日中央5套CCTV5,CCTV5+直播節目表

      重要賽事!11月6日中央5套CCTV5,CCTV5+直播節目表

      皮皮觀天下
      2025-11-06 05:09:50
      北京這一夜,妖艷四射的楊冪和白鹿,卻敗給了全裹出鏡的65歲遲蓬

      北京這一夜,妖艷四射的楊冪和白鹿,卻敗給了全裹出鏡的65歲遲蓬

      糊咖娛樂
      2025-11-03 18:48:09
      阿根廷性感尤物:肉都長在該長的地方,泳裝照讓人驚艷!

      阿根廷性感尤物:肉都長在該長的地方,泳裝照讓人驚艷!

      妮妮玩不夠
      2025-10-20 08:53:40
      侄子帶娃進城看病,吃住我家一月,臨走招呼沒打,掀開被子我愣住

      侄子帶娃進城看病,吃住我家一月,臨走招呼沒打,掀開被子我愣住

      媛來這樣
      2025-10-29 08:27:52
      不公正,凱爾特人杰倫布朗激烈言論被最后2分鐘報告證實100%正確

      不公正,凱爾特人杰倫布朗激烈言論被最后2分鐘報告證實100%正確

      好火子
      2025-11-06 00:51:49
      婆婆骨灰多出4顆鋼釘,兒媳:懷疑不是家人骨灰!查監控發現缺失超2分鐘

      婆婆骨灰多出4顆鋼釘,兒媳:懷疑不是家人骨灰!查監控發現缺失超2分鐘

      極目新聞
      2025-11-05 15:38:00
      曝43歲鄭智將執教青島西海岸:接替邵佳一 曾任廣州隊主帥7個月

      曝43歲鄭智將執教青島西海岸:接替邵佳一 曾任廣州隊主帥7個月

      風過鄉
      2025-11-05 21:03:01
      2025-11-06 10:43:00
      知危 incentive-icons
      知危
      投資不立危墻之下
      493文章數 1824關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      美最高法院就關稅政策合法性展開辯論 美財長罕見出席

      頭條要聞

      美最高法院就關稅政策合法性展開辯論 美財長罕見出席

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      健康
      本地
      教育
      手機
      公開課

      超聲探頭會加重受傷情況嗎?

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      教育要聞

      這是大材小用嗎?北大畢業生考取并入職輔警

      手機要聞

      遮蓋還能解鎖 蘋果:Face ID不用前置攝像頭

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品国产三级国产专业| 野外做受三级视频| 国产成人亚洲老熟女精品| 中文乱码人妻系列一区二区| 日本高清久久一区二区三区| 少妇人妻偷人免费观看| 国产精品自拍午夜福利| 久久精品国产亚洲av麻豆小说| 国产精品爽爽va在线观看网站| 国产午夜精品亚洲精品国产| 风韵丰满熟妇啪啪区老熟熟女| 老色鬼在线精品视频在线观看| 少妇激情一区二区三区视频小说 | 久久天天躁狠狠躁夜夜婷| 男女一边摸一边做爽爽| 香港日本三级亚洲三级| 暖暖 在线 日本 免费 中文| 九九热爱视频精品视频| 精品无人乱码一区二区三区的优势| 日本一级午夜福利免费区| 久久婷婷五月综合色一区二区 | 乌克兰美女浓毛bbw| 国产亚洲精品成人av一区| 久久精品免视看国产成人| 中文字幕在线精品国产| 精品人妻伦一二三区久久| 日韩毛片在线视频x| 国内精品久久久久影院日本| 宁明县| 激情在线一区二区三区视频| 国产午夜精品理论大片| 67194熟妇在线直接进入| 亚洲精品国产男人的天堂| 老色鬼在线精品视频在线观看| 国产一区二区三区九精品| 377P欧洲日本亚洲大胆| 欧洲精品色在线观看| 国产精品无码一区二区牛牛| 国产精品美女一区二三区| 国产精品一二三区视在线| 不卡一区二区国产精品|