<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      為什么大模型會(huì)產(chǎn)生幻覺?OpenAI最新研究終于搞清楚了

      0
      分享至


      大模型幻覺問題被OpenAI研究清楚了,剛剛OpenAI發(fā)布了一篇研究論文,深入剖析了LLM幻覺的根源,指出當(dāng)前主流的訓(xùn)練與評(píng)估體系,是導(dǎo)致幻覺問題的核心驅(qū)動(dòng)因素之一

      paper:

      https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

      研究認(rèn)為,現(xiàn)行評(píng)估標(biāo)準(zhǔn)在無形中獎(jiǎng)勵(lì)了模型的猜測(cè)行為,而非鼓勵(lì)其在面對(duì)不確定性時(shí)承認(rèn)知識(shí)的局限,幻覺的起源于預(yù)訓(xùn)練,來自于“下一次的預(yù)測(cè)”,幻覺并非神秘現(xiàn)象,其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì),都是可以被理解的


      幻覺現(xiàn)象的本質(zhì)

      幻覺,指的是語言模型生成的看似合理但實(shí)際上錯(cuò)誤的陳述。這種現(xiàn)象即便在處理簡(jiǎn)單問題時(shí)也可能發(fā)生。

      論文中舉了一個(gè)實(shí)例:當(dāng)一個(gè)廣泛使用的聊天機(jī)器人被問及該論文作者之一 Adam Tauman Kalai 的博士論文題目時(shí),它自信地給出了三個(gè)完全不同的答案,而這三個(gè)答案均為錯(cuò)誤信息。同樣,在被問及其生日時(shí),它也提供了三個(gè)不同的錯(cuò)誤日期。

      評(píng)估體系的“應(yīng)試陷阱”

      研究指出,幻覺之所以難以根除,很大程度上是因?yàn)樵u(píng)估方法設(shè)定了錯(cuò)誤的激勵(lì)導(dǎo)向。大多數(shù)評(píng)估體系以準(zhǔn)確率為核心指標(biāo),這種方式鼓勵(lì)模型去猜測(cè),而不是誠(chéng)實(shí)地表達(dá)不確定性。

      這可以類比為一場(chǎng)多項(xiàng)選擇考試:考生如果遇到不會(huì)的題目,選擇猜測(cè)或許能僥幸得分,但若留空則必定是零分。同理,當(dāng)模型僅僅因其答對(duì)問題的百分比而獲得高分時(shí),它們便被訓(xùn)練得更傾向于猜測(cè),而不是回答我不知道。

      例如,當(dāng)模型被問及一個(gè)它不知道的生日時(shí),如果猜測(cè)9月10日,有1/365的概率正確。但如果回答我不知道,得分則為零。在海量測(cè)試中,習(xí)慣猜測(cè)的模型在排行榜上的分?jǐn)?shù),會(huì)超過那些謹(jǐn)慎承認(rèn)不確定性的模型

      數(shù)據(jù)佐證:高準(zhǔn)確率并不意味著低錯(cuò)誤率

      為了具體說明這一點(diǎn),論文引用了GPT-5系統(tǒng)卡中關(guān)于SimpleQA評(píng)估的數(shù)據(jù),對(duì)兩款模型進(jìn)行了比較:

      指標(biāo)

      gpt-5-thinking-mini

      OpenAI o4-mini (舊模型)

      拒絕回答率

      (不給出具體答案)

      52%

      1%

      準(zhǔn)確率

      (答案正確)

      22%

      24% 錯(cuò)誤率

      (答案錯(cuò)誤,即幻覺率)

      26%

      75% 總計(jì)

      100%

      100%

      數(shù)據(jù)顯示,舊的OpenAI o4-mini模型在準(zhǔn)確率上略勝一籌(24% vs 22%)。然而,其代價(jià)是高達(dá)75%的錯(cuò)誤率(幻覺率)。這清晰地表明,模型通過策略性猜測(cè)雖然能微幅提升準(zhǔn)確率,但會(huì)引發(fā)災(zāi)難性的錯(cuò)誤率增長(zhǎng)。

      然而,行業(yè)內(nèi)普遍以準(zhǔn)確率為導(dǎo)向的排行榜,激勵(lì)著開發(fā)者構(gòu)建更傾向于冒險(xiǎn)猜測(cè)的模型。這解釋了為何即使技術(shù)在進(jìn)步,模型幻覺的問題依然存在。

      幻覺的起源:來自“下一個(gè)詞預(yù)測(cè)”

      這些高度具體的事實(shí)性錯(cuò)誤最初從何而來?研究指出,根源在于模型的預(yù)訓(xùn)練方式。語言模型通過在海量文本中預(yù)測(cè)下一個(gè)詞來進(jìn)行學(xué)習(xí)。這個(gè)過程中,數(shù)據(jù)本身沒有“真/假”標(biāo)簽,模型只能學(xué)習(xí)語言的流暢模式

      拼寫、語法等遵循著強(qiáng)烈的、一致的模式,因此隨著模型規(guī)模增大,這類錯(cuò)誤會(huì)減少。但是,像某人生日這樣的低頻、任意性事實(shí),在文本中缺乏可預(yù)測(cè)的模式。模型無法僅從上下文推斷出這類事實(shí),因此在被問及時(shí),只能基于統(tǒng)計(jì)概率進(jìn)行創(chuàng)作,從而導(dǎo)致幻覺。

      關(guān)于幻覺的五大常見誤區(qū)

      基于上述分析,該論文對(duì)關(guān)于幻覺的五大常見誤區(qū)進(jìn)行了澄清:

      誤區(qū)一:幻覺是不可避免的。

      研究發(fā)現(xiàn):并非如此。語言模型完全可以選擇在不確定時(shí)拒絕回答,從而避免幻覺。

      誤區(qū)二:只要準(zhǔn)確率達(dá)到100%,幻覺就能被消除。

      研究發(fā)現(xiàn):準(zhǔn)確率永遠(yuǎn)無法達(dá)到100%。因?yàn)楝F(xiàn)實(shí)世界中總存在一些本質(zhì)上無法回答或信息不足的問題。

      誤區(qū)三:避免幻覺需要極高的智能,只有大模型才能做到。

      研究發(fā)現(xiàn):對(duì)小模型而言,認(rèn)識(shí)到自身的局限反而更容易。一個(gè)不了解某個(gè)領(lǐng)域的模型可以輕易地說我不知道,而一個(gè)略知一二的模型則需要更復(fù)雜的計(jì)算來判斷自身回答的置信度。

      誤區(qū)四:幻覺是語言模型中一個(gè)神秘的技術(shù)故障。

      研究發(fā)現(xiàn):幻覺并非神秘現(xiàn)象。其產(chǎn)生的統(tǒng)計(jì)學(xué)機(jī)制,以及它如何在現(xiàn)有評(píng)估體系中被獎(jiǎng)勵(lì),都是可以被理解的

      誤區(qū)五:只要有一個(gè)好的幻覺評(píng)估標(biāo)準(zhǔn),問題就能解決。

      研究發(fā)現(xiàn):即使存在專門的幻覺評(píng)估標(biāo)準(zhǔn),在數(shù)百個(gè)以準(zhǔn)確率為核心的傳統(tǒng)評(píng)估標(biāo)準(zhǔn)面前,其影響力也微乎其微。

      未來的方向:改革評(píng)估體系

      研究報(bào)告最終的結(jié)論是,解決幻覺問題的關(guān)鍵在于對(duì)現(xiàn)有評(píng)估體系進(jìn)行根本性改革。研究人員倡議,新的評(píng)估標(biāo)準(zhǔn)應(yīng)該對(duì)自信的錯(cuò)誤答案施加比承認(rèn)不確定性更重的懲罰。只有當(dāng)整個(gè)行業(yè)的“計(jì)分規(guī)則”發(fā)生改變,才能真正激勵(lì)開發(fā)者采納能夠減少幻覺的技術(shù)和策略。

      參考:

      https://openai.com/index/why-language-models-hallucinate/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      小喬古裝漢服
      2025-09-29 07:55:03
      小沢菜穗:除了E級(jí)車燈,這個(gè)不敬業(yè)的演員還有啥吸引你,顏值?

      小沢菜穗:除了E級(jí)車燈,這個(gè)不敬業(yè)的演員還有啥吸引你,顏值?

      素然追光
      2025-11-07 00:40:03
      全球禁賽?籃協(xié)禁賽哈雷爾的聲明中提到球員不得參加其他聯(lián)賽

      全球禁賽?籃協(xié)禁賽哈雷爾的聲明中提到球員不得參加其他聯(lián)賽

      懂球帝
      2025-11-06 16:04:05
      醫(yī)院值班室事件大反轉(zhuǎn),副院長(zhǎng)和女醫(yī)師沒有錯(cuò),有人表示支持

      醫(yī)院值班室事件大反轉(zhuǎn),副院長(zhǎng)和女醫(yī)師沒有錯(cuò),有人表示支持

      平老師666
      2025-11-06 23:36:05
      劉翔近況大揭秘:長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

      劉翔近況大揭秘:長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

      東方不敗然多多
      2025-10-31 00:07:57
      80%的自閉癥,都是從娘胎里開始的,胎驚入脈,往往離不開這三點(diǎn)

      80%的自閉癥,都是從娘胎里開始的,胎驚入脈,往往離不開這三點(diǎn)

      阿燕姐說育兒
      2025-11-05 14:20:46
      民進(jìn)黨動(dòng)手了!臺(tái)當(dāng)局將嚴(yán)查持有大陸證件者,發(fā)現(xiàn)就開除“島籍”

      民進(jìn)黨動(dòng)手了!臺(tái)當(dāng)局將嚴(yán)查持有大陸證件者,發(fā)現(xiàn)就開除“島籍”

      男女那點(diǎn)事兒兒
      2025-11-07 01:33:00
      梅西比我更出色?C羅:沒問題!我可以接受,但魯尼不是我朋友

      梅西比我更出色?C羅:沒問題!我可以接受,但魯尼不是我朋友

      奧拜爾
      2025-11-06 22:45:03
      歷史戰(zhàn)爭(zhēng)權(quán)謀美劇推薦,燃炸動(dòng)作場(chǎng)面,精選15部之一

      歷史戰(zhàn)爭(zhēng)權(quán)謀美劇推薦,燃炸動(dòng)作場(chǎng)面,精選15部之一

      君笙的拂兮
      2025-11-06 00:14:25
      李鴻忠、吳政隆、雷海潮、吳清,宣講四中全會(huì)精神

      李鴻忠、吳政隆、雷海潮、吳清,宣講四中全會(huì)精神

      政知新媒體
      2025-11-06 21:58:11
      懶懶已成過去式?王思聰奢侈品店購(gòu)物,一個(gè)女生直接坐在他腿上

      懶懶已成過去式?王思聰奢侈品店購(gòu)物,一個(gè)女生直接坐在他腿上

      瘋說時(shí)尚
      2025-11-06 14:05:08
      “假愛國(guó)”風(fēng)波真相大白3年,吳京近況爆出,網(wǎng)友:一點(diǎn)都不意外

      “假愛國(guó)”風(fēng)波真相大白3年,吳京近況爆出,網(wǎng)友:一點(diǎn)都不意外

      攬星河的筆記
      2025-11-05 20:06:52
      我在部隊(duì)當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號(hào)塔每晚都準(zhǔn)時(shí)閃3下

      我在部隊(duì)當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號(hào)塔每晚都準(zhǔn)時(shí)閃3下

      五元講堂
      2025-11-05 10:35:02
      醫(yī)院院長(zhǎng)被妻子舉報(bào),醫(yī)學(xué)院是他的后花園,329名情人創(chuàng)下紀(jì)錄

      醫(yī)院院長(zhǎng)被妻子舉報(bào),醫(yī)學(xué)院是他的后花園,329名情人創(chuàng)下紀(jì)錄

      七月故事會(huì)
      2025-04-29 02:45:27
      眾望所歸!2大中超名宿馳援國(guó)足,獲足協(xié)認(rèn)可,輔佐邵佳一

      眾望所歸!2大中超名宿馳援國(guó)足,獲足協(xié)認(rèn)可,輔佐邵佳一

      國(guó)足風(fēng)云
      2025-11-06 09:18:01
      天啊!嚴(yán)重車禍致雙小腿截肢!2米29的NBA巨人,癱瘓了!

      天啊!嚴(yán)重車禍致雙小腿截肢!2米29的NBA巨人,癱瘓了!

      野球帝
      2025-11-06 11:17:31
      哈佛大學(xué)教授一句話,解決人生90%的問題

      哈佛大學(xué)教授一句話,解決人生90%的問題

      洞見
      2025-11-04 21:50:08
      李佳琦發(fā)文:被自己蠢哭

      李佳琦發(fā)文:被自己蠢哭

      魯中晨報(bào)
      2025-11-06 14:59:01
      巴西將臨時(shí)遷都

      巴西將臨時(shí)遷都

      北京商報(bào)
      2025-11-06 00:31:02
      重大突破!新發(fā)現(xiàn),7億噸!

      重大突破!新發(fā)現(xiàn),7億噸!

      證券時(shí)報(bào)
      2025-11-07 00:15:06
      2025-11-07 02:51:00
      AI寒武紀(jì) incentive-icons
      AI寒武紀(jì)
      專注于人工智能,科技領(lǐng)域
      961文章數(shù) 370關(guān)注度
      往期回顧 全部

      科技要聞

      小鵬機(jī)器人里藏真人?何小鵬發(fā)一鏡到底視頻

      頭條要聞

      美演練對(duì)俄核打擊:導(dǎo)彈僅需六七分鐘即可飛抵俄羅斯

      頭條要聞

      美演練對(duì)俄核打擊:導(dǎo)彈僅需六七分鐘即可飛抵俄羅斯

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財(cái)經(jīng)要聞

      南銀法巴加速發(fā)展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

      態(tài)度原創(chuàng)

      房產(chǎn)
      本地
      家居
      公開課
      軍事航空

      房產(chǎn)要聞

      錨定居住新趨勢(shì)!廣佛新世界重構(gòu)灣區(qū)“理想生活投資學(xué)”

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      家居要聞

      別樣府院 暢享詩意生活

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國(guó)發(fā)射洲際彈道導(dǎo)彈 俄方回應(yīng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文午夜乱理片无码| 国产无遮挡免费视频免费| 中文字幕人妻有码久视频| 久久精品国产久精国产果冻传媒| 中文字幕国产精品专区| 欧美18videosex性欧美tube1080| 西西人体大胆444WWW| 欧美日韩国产码高清| 日本不卡的一区二区三区| 午夜国产精品福利一二| 无码午夜福利片| 色综合伊人色综合网站| 免费人成网站免费看视频| 亚洲午夜精品国产电影在线观看| 国产稚嫩高中生呻吟激情在线视频| 加勒比亚洲天堂午夜中文| 少妇极品熟妇人妻| 成人免费无码大片A毛片抽搐色欲| 少妇伦子伦情品无吗| 四虎国产精品永久免费网址| 国内精品无码一区二区三区| 91高清免费国产自产拍| 大地资源中文第二页日本| 本道久久综合无码中文字幕| 亚洲一区二区三区| 亚洲不卡一区三区三区四| 影视先锋av资源噜噜| 乱码精品一区二区亚洲区| 翘臀少妇被扒开屁股日出水爆乳| 亚洲鸥美日韩精品久久| 1区2区3区4区产品不卡码网站 | 翘臀少妇被扒开屁股日出水爆乳| 久久99热只有频精品8| a级免费视频| 亚洲天堂伊人久久a成人| 国产女主播喷水视频在线观看| 中文字幕在线日韩| 精品嫩模福利一区二区蜜臀| 亚洲国产午夜精品理论片| 久久久国产成人一区二区 | 一本大道久久东京热AV|