一、偵探破案隱喻:AI 推理的真實困境
“找出凱恩?科恩斯的父親是誰?”
如果有人告訴你 “先找他哥哥,再找哥哥的繼母,最后找繼母的丈夫”,這案子堪稱送分題。但要是沒有任何提示,你得自己琢磨查誰、問誰、走哪條線索 —— 這才是 AI 真正面臨的考驗。
2025 年 10 月,阿里通義實驗室等機構的研究揭開了一個殘酷真相:我們一直用 “泄題” 的試卷考 AI,導致嚴重高估了它的推理能力。更關鍵的是,他們推出了首個 “無提示” 測試系統 WebDetective(代碼已開源),一考之下,25 個頂尖 AI 原形畢露。
二、傳統測試的 “泄題” 套路:AI 一直在 “做弊”?
就像考核偵探卻提前給線索,當前 AI 測試的 “泄題” 分兩種:
- 路徑提示:問題直接給出推理步驟,比如問 “凱恩的哥哥的繼母的丈夫是誰”。AI 只需按圖索驥,根本不用想 “從哪開始查”。
- 規范提示:用一堆特征畫 “身份指紋”,比如 “找 5AA 電臺的前足球運動員主持人,妻子是 2007 年工黨候選人”。AI 只需匹配特征,本質是 “填數獨” 而非推理。
更糟的是,傳統評估只看 “對不對”,不管 “怎么答的”。就像偵探猜中答案、查錯步驟、直接放棄,都算 “失敗”—— 根本分不清 AI 是找不到線索、不會拼線索,還是瞎猜。
三、WebDetective:給 AI 出的 “真考題”
為了考出真實水平,WebDetective 設計了兩大殺招:
1. 只給問題,不給提示
直接問 “凱恩的父親是誰”,沒有任何步驟指引。就像警長扔下案子就走,偵探全靠自己摸索。
2. 打造 “密室逃脫” 式測試環境
怕 AI 走捷徑(比如直接搜到凱恩父子同框新聞),研究團隊建了個 “受控維基百科”:
- 凱恩的頁面只寫著 “有個哥哥查德”
- 查德的頁面只寫著 “繼母是妮可”
- 妮可的頁面才寫著 “丈夫格雷厄姆”
就像密室逃脫,必須拿到前一扇門的鑰匙才能進下一扇,AI 想跳過步驟根本不可能。同時,系統還能追蹤 AI 的每步操作,精準定位失敗原因。
3. 醫生式診斷框架
不再只看 “對錯”,而是拆分評估:
- 知識獲取:找到關鍵線索了嗎?(像偵探收集到證物沒)
- 答案生成:有線索能拼出真相嗎?沒線索會說 “不知道” 嗎?(像偵探會分析證物、懂不懂認輸)
![]()
四、給 AI 配 “辦案工具”:EvidenceLoop 的嘗試
研究團隊沒只挑問題,還做了個 “AI 辦案助手” EvidenceLoop,核心是三個設計:
- 偵探團隊協作:3 個 AI 分頭查線索,匯總后再深入,避免漏線索或信息過載;
- 證物編號系統:線索存成 “證據 #042”,摘要 + 編號既省空間又能隨時調原證;
- 實時審核機制:AI 答完必須標證據,專人(驗證 AI)查 “線索對不對、能不能拼出答案”,有漏洞就補查。
這套系統準確率達 25%,雖不如頂尖模型,但指明了方向。不過也暴露了 AI 的新問題:會 “過早放棄”、記不住之前的線索、反復查同一頁面浪費精力。
五、真相:我們可能高估了 AI 的進步
這項研究最值錢的不是分數,而是搞懂了 AI “哪里不行”:
- 不是 AI 沒進步,是之前的測試太水 —— 就像用開卷考成績當智商分;
- 當前技術下,AI 要么推理強但愛瞎猜,要么靠譜但不頂尖,二者難兼顧;
- AI 缺 “工作記憶”,記不住推理過程中的線索,這得從模型架構上改。
就像偵探得懂收集、分析、判斷分寸,真正的 AI 推理也得會找線索、拼線索、知邊界。現在看來,這條路還長著呢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.