<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      ICML 2025 | 大模型能在信息不完備的情況下問出正確的問題嗎?

      0
      分享至



      大語言模型(Large Language Model, LLM)在復雜推理任務中表現卓越。借助鏈式思維(Chain-of-Thought, CoT),LLM 能夠將復雜問題分解為簡單步驟,充分探索解題思路并得出正確答案。LLM 已在多個基準上展現出優異的推理能力,尤其是數學推理和代碼生成。

      然而,當前針對 LLM 推理能力的研究主要集中于被動推理(Passive Reasoning, PR),即在提供完整信息的前提下讓模型進行推理。相比之下,對信息不完備場景下模型推理能力的研究明顯不足。

      這類場景在實際應用中十分常見,例如偵探需要通過詢問和走訪獲取破案線索,醫生需要通過問診收集診斷依據。我們將這類需要主動獲取信息的推理稱為主動推理(Active Reasoning, AR)

      目前關于 AR 的方法和基準研究較少,探索不足,制約了 LLM 在復雜現實場景中的應用。如圖 1 所示,被動推理是直接從給定的充分信息中求解,而主動推理則需要從不完整的信息出發,通過多輪交互來獲取關鍵線索,最終得出結論。可以說,被動推理的核心是找到答案,而主動推理的核心是提出正確的問題。



      圖 1 被動推理(左)與主動推理(右)的示意圖。

      盡管主動推理對實現通用人工智能至關重要,但目前學術界對此關注甚少,LLM 在這方面的能力也亟待一個系統性的評估。為此,我們提出了 AR-Bench,一個旨在全面評估大模型主動推理能力的基準,并進行了一系列深入的實驗分析。

      我們的主要貢獻有如下三點:

      1. 新問題:我們提出了主動推理這一亟待研究的新問題,并系統定義了其相對于被動推理的核心挑戰。
      2. 新基準:我們提出了專門用于評估主動推理能力的基準 AR-Bench ,系統的測試模型在復雜場景中的主動推理能力。
      3. 新發現:我們通過在 AR-Bench 上的全面評測,揭示了當前頂尖 LLM 在主動推理方面的普遍且嚴重的短板,并指出了未來的研究方向。

      接下來,我們將簡要介紹 TMLR 課題組和斯坦福大學合作的 AR-Bench,并展示我們從廣泛地測試實驗中提取出來的重要發現,相關論文已發表于 ICML 2025 會議。



      • 論文標題:From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?
      • 論文鏈接:https://arxiv.org/abs/2506.08295
      • 代碼鏈接:https://github.com/tmlr-group/AR-Bench

      新問題:主動推理

      傳統的 LLM 推理研究,如 CoT,大多遵循被動推理的范式。在這種范式下,模型接收一個包含所有必要信息的問題,然后逐步地推導出最終答案。然而,現實中許多場景都存在著信息不完整的情況。以醫療診斷為例,醫生需要通過與患者互動主動獲取癥狀、病史等關鍵信息,而非被動接收完整數據。這類信息不完整的場景要求 LLM 通過提問、信息探索和動態交互來補充缺失信息,最終完成推理任務。

      我們將這種推理范式定義為主動推理。在 AR 范式下,模型僅獲得部分信息,并且必須通過與外部環境(如數據庫、API 或人類用戶)的交互來主動提問,以獲取缺失的關鍵信息來解決問題。AR 綜合了提問、檢索和迭代推理,是一個更全面、更動態、更具挑戰性的問題解決框架。

      對主動推理問題的探索,有助于我們更好地理解和提升 LLM 在真實、復雜場景下的智能水平,推動其從一個被動的文本處理器,轉變為一個能夠主動解決問題的人工智能體。



      圖 2 PR 要求模型通過一步步推理從給定的問題得到正確答案,而 AR 要求模型分析當前任務,提出一系列關鍵的問題來獲取重要信息,并利用這些信息得到正確的答案。本質上,PR 的核心要求是根據問題得到正確答案,而 AR 的核心要求是提出正確的問題來獲取關鍵的信息。

      新基準:AR-Bench

      為了系統地評估和衡量 LLM 的主動推理能力,我們構建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模擬真實世界中的信息獲取場景,它包含三個不同類型的任務,分別對應三種核心的推理能力:

      偵探案件 (Detective Cases, DC):模擬刑事案件調查,模型需要通過提問來搜集線索、分析案情,考驗其常識推理能力。

      情景謎題 (Situation Puzzles, SP):也被稱為 「海龜湯」,模型需要通過 「是 / 否」 問題來揭開一個看似矛盾或離奇情景背后的真相,考驗其邏輯推理和發散思維能力。

      數字猜謎 (Guessing Numbers, GN):經典的主動推理游戲,模型需要根據反饋猜測一個由不重復數字組成的四位數,考驗其符號推理能力。



      圖 3 AR-Bench 中三種任務的示例。

      我們的評估框架采用多輪交互范式,其中提問方 LLM 與扮演信息源的 「回答者」 智能體進行動態對話。該評估體系包含兩個維度:

      1)結果評估:在 DC 和 GN 任務中判斷模型結論與標準答案的匹配度,對于開放式問題 SP 則采用 F1-Score 衡量回答相似度;

      2)過程評估:基于預設關鍵問題(Key Questions),通過 LLM-as-a-judge 方法以交互輪次為粒度評估對話是否有效解決關鍵問題(適用于 DC 和 SP ),而在 GN 任務中則直接計算反饋信息的數字準確率作為過程評分指標。這一綜合評估方案不僅關注最終答案的正確性,更重視模型在交互過程中提出問題的質量和信息獲取的有效性,從而全面刻畫模型的主動推理能力。

      新發現:

      大模型主動推理能力嚴重不足

      我們在 AR-Bench 上對包括 GPT-4o 在內的多個先進 LLM,以及基于 prompting 和基于訓練的推理方法進行了廣泛測試。

      實驗結果(圖 4,5)表明:目前的語言模型和推理方法都無法有效解決AR-Bench 提出的問題,我們發現:

      1. 即使是最先進的 GPT-4o 模型也只能在 GN 任務上達到 35% 的準確率。

      2. 細粒度的指導和基于搜索的方法 (ToT)只能提供非常有限的性能提升。

      3. 基于訓練的方法(SFT, DPO)甚至在一些任務上使模型性能變差。



      圖 4 不同模型在 AR-Bench 上的性能對比。



      圖 5 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能對比。

      我們還測試了兩個先進的主動推理方法(Proactive CoT 和 Uncertanty of Thoughts)以及人類在 AR-Bench 上的表現(見圖 6)。我們發現:

      1. 即使是目前提出的先進的主動推理方法也無法提升模型在 AR-Bench 上的性能。

      2. 人類在 AR-Bench 上的推理表現顯著優于目前先進的語言模型。



      圖 6(左)先進的主動推理方法在 AR-Bench 上的性能表現,(右)人類在 AR-Bench 上的表現和 GPT-4o 對比。

      為了更細致的研究語言模型在主動推理上的表現,理解目前模型和方法的不足,我們測量了模型在主動推理交互過程中模型對該任務的解決程度(見圖 7,8),我們發現:

      1. 在交互過程中,模型的收益呈現遞減趨勢,在后期問題質量低下

      2. 較弱的模型問出的問題質量偏低,并且無法對交互機會進行有效利用

      3. 較強的模型能夠利用多輪交互機會,持續獲得有用的信息

      4. 基于搜索的方法在 AR-Bench 中依賴于每一輪評估問題質量的驗證器的可靠性,表現在對 GN 任務有顯著提升 (驗證器基于數值反饋構建,簡單可靠),而在 SP 任務下無法提升推理表現 (驗證器基于自然語言反饋構建,復雜且相對不可靠)。



      圖 7 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中過程分的變化趨勢。



      圖 8 不同模型在 AR-Bench 各任務上推理中過程分的變化趨勢。

      我們還進行在 AR-Bench 進行了三方面的消融實驗(見圖 9,10,11):

      1. 固定交互信息,探究不同模型的推理能力的表現。

      2. 延長交互的輪數,給予模型更多的機會進行信息獲取,探究模型的表現變化。

      3. 探究在實驗中扮演回答者的模型的可靠性。

      我們發現:

      1. 更大的模型能夠在固定的記錄中提取出更多的有效信息。

      2. 簡單延長交互輪數無法完全解決主動推理任務。

      3. 面對主模型提出的問題,回答者能夠給出可靠的回復。



      圖 9 使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互過程中獲得的交互記錄測試不同模型在給定信息的情況下給出正確結論的能力。



      圖 10 延長交互輪數后,比較模型的推理表現變化。



      圖 11 回答者模型的可靠性驗證。

      為更直觀評估模型在主動推理中的表現,我們系統分析了不同任務中的典型錯誤模式(見圖 12),并通過具體案例深入剖析了模型的失誤原因(見圖 13)。

      我們發現:

      1. 模型會問出寬泛,不具體的問題。

      2. 模型會問出沒有幫助的問題。

      3. 模型在主動推理中會頻繁出現時間線誤解,忽視證據,強行提出未經驗證的假設,以及沒有完全利用符號反饋等典型問題。



      圖 12 GPT-4o 模型在不同任務下的推理正確和推理錯誤的案例分析。



      圖 13 Llama-3.1-8B 和 GPT-4o 在不同任務下的出現的典型錯誤統計。

      總結

      我們的工作系統地定義了主動推理這一重要問題,并構建了 AR-Bench 作為社群的評估工具。我們的實驗結果清晰地表明,當前的大語言模型雖然在被動推理上能力強大,但在更貼近現實的主動推理場景下卻舉步維艱。

      展望未來工作,我們認為 AR-Bench 存在以下拓展方向:

      提升模型的主動推理能力:

      1. 采集小規模但是高質量的微調數據集

      2. 將強化學習推理方法(PPO, GRPO, DAPO)和推理模型適配到主動推理

      3. 為搜索方法開發更先進可靠的驗證器,以提升搜索方法在主動推理上的表現

      將 AR-Bench 拓展到更多的任務和領域:

      1. 醫療場景和定制化代理

      2. 多輪檢索增強生成和工具調用

      3. 模擬真實環境和多模態場景,例如機器人和游戲

      更多的實驗分析和技術細節,請參閱我們的論文及源碼,我們也將持續更新本工作的內容。

      我們希望 AR-Bench 能夠激發更多關于主動推理的研究,推動開發出能夠主動提問、高效探索、真正解決現實世界問題的人工智能。非常感謝大家關注我們的工作!

      課題組介紹

      香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士后研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬于理學院計算機系。課題組專攻可信基礎模型、可信表征學習、基于因果推理的可信學習等相關的算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組 Github https://github.com/tmlr-group。

      課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局新進學者協作研究補助金、優配研究金和杰出青年學者計劃,國家自然科學基金面上項目和青年項目,以及微軟、英偉達、字節跳動、百度、阿里、騰訊等企業的教職科研基金。青年教授和資深研究員手把手帶,GPU 計算資源充足,長期招收多名博士后研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士后研究員、博士生和研究助理申請,訪問至少 3-6 個月,支持遠程訪問。有興趣的同學請發送個人簡歷和初步研究計劃到郵箱 bhanml@comp.hkbu.edu.hk。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐冠狂歡夜:曼城4-1多特 切爾西2-2+巴薩3-3 穆里尼奧開局4連敗

      歐冠狂歡夜:曼城4-1多特 切爾西2-2+巴薩3-3 穆里尼奧開局4連敗

      侃球熊弟
      2025-11-06 05:06:12
      邵佳一成為國足主帥的背后:決策權不在中國足協,宋凱如釋重負

      邵佳一成為國足主帥的背后:決策權不在中國足協,宋凱如釋重負

      姜大叔侃球
      2025-11-05 19:20:12
      股票起飛前,"換手率"都會出現這樣的特征,不懂的散戶請不要炒股

      股票起飛前,"換手率"都會出現這樣的特征,不懂的散戶請不要炒股

      股經縱橫談
      2025-11-05 17:30:10
      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      重遠投資觀
      2025-11-05 13:00:18
      政府關門30多天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      政府關門30多天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      博覽歷史
      2025-11-05 18:24:37
      她是內娛顏值“天花板”,出道多年始終不溫不火,如今終于逆襲!

      她是內娛顏值“天花板”,出道多年始終不溫不火,如今終于逆襲!

      君笙的拂兮
      2025-11-05 05:27:22
      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      手機中國
      2025-11-05 11:53:09
      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      爆角追蹤
      2025-11-05 19:18:19
      “頂級白富美”人設大翻車,被罵上熱搜!網友:這樣的人都有工作,我卻沒有!

      “頂級白富美”人設大翻車,被罵上熱搜!網友:這樣的人都有工作,我卻沒有!

      羊城攻略
      2025-11-04 23:06:41
      天涯神貼:普通人家孩子的最好出路

      天涯神貼:普通人家孩子的最好出路

      前沿天地
      2025-11-03 07:42:49
      俄軍大捷!烏軍法械旅在紅軍城舉白旗,澤連斯基與瑟爾斯基爆內訌

      俄軍大捷!烏軍法械旅在紅軍城舉白旗,澤連斯基與瑟爾斯基爆內訌

      梁訊
      2025-11-06 05:46:34
      改寫90年歷史!米蘭雙雄2億收購圣西羅 6年內砸12億建7萬人新球場

      改寫90年歷史!米蘭雙雄2億收購圣西羅 6年內砸12億建7萬人新球場

      風過鄉
      2025-11-05 21:32:53
      劉強東開出百萬年薪招攬汽車人才

      劉強東開出百萬年薪招攬汽車人才

      鞭牛士
      2025-11-05 15:15:10
      雷軍回應造車爭議,一切都結束了

      雷軍回應造車爭議,一切都結束了

      新浪財經
      2025-11-05 20:36:42
      手機狀態欄變“廣告位”?網友炸鍋,運營商回應情況屬實

      手機狀態欄變“廣告位”?網友炸鍋,運營商回應情況屬實

      雷科技
      2025-11-05 16:49:49
      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      洲洲影視娛評
      2025-11-04 13:46:08
      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      科普大世界
      2025-11-05 11:06:27
      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      我愛英超
      2025-11-05 22:21:52
      耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現在看人還是“重影”

      耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現在看人還是“重影”

      魯中晨報
      2025-11-06 06:55:29
      京東1號車下線,價格或低于10萬,劉強東開出百萬年薪搶人

      京東1號車下線,價格或低于10萬,劉強東開出百萬年薪搶人

      21世紀經濟報道
      2025-11-05 13:58:37
      2025-11-06 07:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      何小鵬連發四大黑科技!人形機器人走貓步上臺

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      本地
      親子
      房產
      教育
      軍事航空

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      親子要聞

      佛山3歲男童從摩托車跌落,額頭“深度撕裂”!醫生提醒:這種部位最易受傷

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      教育要聞

      規律探究題,一個視頻學明白!

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区二区精品偷拍| 狠狠躁夜夜躁无码中文字幕| 波多野结衣在线播放| 色综合久久综合香蕉色老大| 国产午夜福利免费入口| 九色综合狠狠综合久久| 国产一区二区在线有码| 日本免费一区二区三区久久| 亚洲熟女乱综合一区二区三区| 久久99热只有频精品8| 韩国午夜福利片在线观看| 亚洲国产午夜精品福利| 西西午夜无码大胆啪啪国模| 国产精品午夜无码AV天美传媒| 国产午夜福利小视频合集| av区无码字幕中文色| 国产一区二区av天堂热| 无码人妻一区二区三区在线视频| 欧美精品人人做人人爱视频| 午夜成人精品福利网站在线观看| 在线看无码的免费网站| 久久精品国产久精国产| 国产成人综合网亚洲第一| 国产精品性色一区二区三区| 国产一区二区在线影院| 好紧好滑好湿好爽免费视频| a级亚洲片精品久久久久久久| 久久超碰色中文字幕超清| 成 年 人 黄 色 大 片大 全| 国产福利永久在线视频无毒不卡| 夜夜偷天天爽夜夜爱| 日产一区日产2区| 国产精品夜夜春夜夜爽久久小| 中文字幕亚洲精品第一页| 亚洲最大的成人网站| 亚洲高清免费在线观看| 国产精品人妻中文字幕| 亚洲国产一成人久久精品| 国产成人AV男人的天堂| 国产午夜精品视频在线播放 | 日韩国产精品一区二区av|