網易首頁 > 網易號 > 正文申請入駐

LLM把簡單任務復雜化，Karpathy無語：有些任務無需那么多思考

2025-08-12 11:16:52　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

隨著推理大模型和思維鏈的出現與普及，大模型具備了「深度思考」的能力，不同任務的泛用性得到了很大的提高。

借助思維鏈，大模型能夠對任務進行深入分析，完成任務規劃與拆解，從而勝任長周期、復雜度高的工作。同時，我們也能更直觀地了解模型的推理與分析過程，從中發現執行環節中的問題，并有針對性地調整指令，以更高效地完成目標。

可以說，有了「深度思考」的推理模型，才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體，對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時候有沒有發現，打開了深度思考后，一些簡單的任務也需要很多的思考，展示了非常冗長的思維鏈，而不打開深度思考的時候，又很難準確的得到想要的回復。

這種現象越來越明顯了，尤其是當大模型進入工作流（例如編碼工作）的時候，其負面效應就更加顯著。

這不，AI 領域的大牛 Andrej Karpathy 也感覺到不對勁，發了長文推來指出這個令人無語的現象。

Karpathy 說，「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理（Agentic）』傾向，甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務，模型現在往往會進行較長時間的推理，傾向于在整個代碼庫中列出并搜索（grep）文件，會反復進行網絡搜索，對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考，甚至在非常簡單的查詢中，也常常需要幾分鐘后才返回結果。

尤其是在簡單的任務中，比如在運行腳本前快速檢查索引錯誤或其他低級錯誤，根本不需要如此復雜的任務分析和代碼處理。

因此 Karpathy 不得不經常打斷 LLM，并用類似這樣的指令限制它：「停，你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

這帶來了很多麻煩，不僅是在編碼任務，我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

簡單拿剛發布幾天的 GPT-5 舉個例子，發布時 OpenAI 顯然意識到深度思考的問題，所以他們強調 GPT-5 是一個集成模型，也就是說，你用它的時候不需要在不同模型之間切換，它會自己決定何時需要深入思考。

但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用，但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個指令：「去除圖中文字，把這張圖變得高清一些，機器人的臉看起來更溫和一些」，希望它能夠調用圖像編輯的功能。

但結果它就開始進行「深度思考」了：

經過了 38 秒的思考，它考慮了很多細節，但仍然未能開始使用圖像生成功能，導致不得不打斷它的任務進程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的，隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏，我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度，從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

網友們也苦「過度思考」久矣，甚至為此回到了最樸素的使用方法。

對于這件事，Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」，為了在基準測試上得到更好的成績，LLM的思考就更傾向于長周期的復雜任務的實現，因此影響了普通任務的響應。

他指出了兩種情境：

1. 我招呼同事過來看我屏幕上打開的一個文件，問他「這樣對嗎？」

2. 我讓某人坐在桌前，他們有 2 個小時來作答。這是一場考試，風險很高。題目是「這樣對嗎？」

人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2，而隨著時間推移、基準測試的不斷「極限化」，它會越來越傾向于假設你問的是情境 2。

這指出了大模型過度思考，復雜化任務的可能原因，大模型的發展不能完全以基準測試分數作為追求。

關于大模型的「過度思考」，有相關經歷和想法歡迎在評論區分享。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

程序員入職近三個月一個成果沒有，種種表現卻像是帶薪干私活？

程序員古耕 2025-11-04 22:59:48
3 跟貼 3
我錯了，Gemini 做PPT不是“一般”，是“封神”。（尤其挖到第3層功能后…）

AI范兒 2025-11-03 19:12:19
226 跟貼 226

“史上最長”春節點燃長線旅游熱情已有旅客下單

新京報 2025-11-04 22:59:12
1659 跟貼 1659

小鵬科技日發布第二代VLA大模型，三大具身智能產品矩陣集體進階

天天汽車 2025-11-05 18:23:22
0 跟貼 0
機器人終于有自己的真機評測大考了

量子位 2025-10-15 20:05:44
0 跟貼 0

機器人想殺戒，雞哥救場

阿鰳追劇 2025-11-05 07:27:40
1 跟貼 1

猴子撿到一個打火機，無意間學會使用方法，下一秒憋住別笑

探地球密碼館 2025-11-05 16:48:20
1 跟貼 1
護肝片哪個品牌最好最安全？口碑護肝片品牌榜單，Livereliv現代人護肝首選方案

日照日報 2025-11-04 21:11:12
0 跟貼 0

擴散不死，BERT永生！Karpathy凌晨反思：自回歸時代該終結了?

新智元 2025-11-05 10:14:57
0 跟貼 0
“60kg高中生從11層自由而下”，用學生跳樓出題目？作業幫回應

星視頻 2025-11-04 17:24:55
1 跟貼 1
備份文件的重要性，這下完犢子了吧？咖啡還是挺香的

星河看影視 2025-11-03 09:31:14
3 跟貼 3
比NanoBanana更擅長中文和細節控制！兔展&北大新模型刷新SOTA

量子位 2025-11-05 14:42:26
0 跟貼 0
小鵬科技日都有啥看點？第二代VLA大模型、小鵬Robotaxi都不夠看

My車轱轆 2025-11-05 17:29:34
0 跟貼 0
智譜中標679.8萬元水電大模型項目

財聯社 2025-11-05 20:04:18
0 跟貼 0
新任干部拍文件首頁發朋友圈致泄密，被給予黨紀政務處分

星視頻 2025-11-05 15:29:10
0 跟貼 0
超長后續《他給的愛如奶油般化開》林若嬋宋臨川無刪減在線閱讀

梧桐棲孤影 2025-11-05 13:53:21
0 跟貼 0
境外租車加錯油 “全額保險”竟失效，游客還被扣了6000元丨云求助

封面新聞 2025-11-05 19:05:03
0 跟貼 0
642二年級期末考試中的必考題目：兩種方法解決問題，快來看看吧

我服子佩 2025-11-05 00:47:52
1 跟貼 1
男子將肉干放在小狗鼻子上，小狗聽到主人指令后才吃，網友：口水都成瀑布了

大吵小鬧 2025-11-05 11:40:41
0 跟貼 0
剛剛，華為AI推理大招開源，時延降90%，吞吐提22倍，上下文10倍級擴展

智東西 2025-11-05 17:53:14
0 跟貼 0
小貓：我已熟練掌握人類的使用方法

新劇梟雄 2025-11-04 13:19:43
0 跟貼 0
AI跌價900倍，連一瓶礦泉水都比它貴！

新智元 2025-11-05 19:51:51
0 跟貼 0
三亞海灘“長滿”了俄羅斯人！網友調侃：我在這里反而成了“老外”

封面新聞 2025-11-02 12:57:02
148 跟貼 148
暴露考生隱私？筆試37.2分考生進入體檢階段？哈爾濱市消防救援支隊發布情況通報

界面新聞 2025-11-04 22:26:59
2074 跟貼 2074
張家口一小區車庫墻面現巨大裂縫大洞，住建局：是填充墻，主體結構也有小裂縫，已鑒定

瀟湘晨報 2025-11-05 11:23:41
101 跟貼 101
研究臨哈值時發現手勢不同臨哈值不同的新代碼

林豆會害羞 2025-11-05 14:46:31
0 跟貼 0
地球級AI智能體爆誕！谷歌地球開外掛，一夜為20億人洪水預警

新智元 2025-11-05 19:52:11
0 跟貼 0
Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0
C羅敞開心扉：用世界杯來定義我不公平，曼聯丟了精神根基

澎湃新聞 2025-11-04 23:16:29
1346 跟貼 1346
柬埔寨“太子集團”資產又遭凍結總值超35億元

極目新聞 2025-11-05 15:06:20
248 跟貼 248
當深圳00后也來抄底：內地客赴港買房，十年砸下8000億

南方都市報 2025-11-05 13:54:46
233 跟貼 233
導演念游戲題目，怎料胡先煦：你怎么念王安宇身份證信息丨出發3

王觪曉 2025-11-05 01:09:50
1 跟貼 1
作業幫題目出現學生跳樓求該學生下落的平均速度作業幫目前已做下架處理

河南都市頻道 2025-11-05 10:10:04
0 跟貼 0
一把手的指令，不理解也要執行

烏鴉追劇 2025-11-04 11:35:49
1 跟貼 1
于東來：胖東來沒有上市規劃

界面新聞 2025-11-05 12:58:43
159 跟貼 159
鑫苑服務首發“物業智能體進化四部曲”：開啟物企高質發展新周期

樂居財經官方 2025-11-04 10:49:05
0 跟貼 0
烤火器的意外使用方法，真的是腦洞大開，網友：假如我拿出帶電磁爐的你怎么辦

逛吃青島 2025-11-04 19:00:55
0 跟貼 0
天國拯救總監批評天外世界2：機制落后設計陳舊！

游民星空 2025-11-05 17:09:22
1 跟貼 1
RAE終極形態？北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

機器之心Pro 2025-11-03 17:23:27
0 跟貼 0
南京還是太超前了，機器人都上街遛娃，社恐的以后這樣出門！

搞笑花骨朵 2025-11-05 13:56:07
1 跟貼 1

手機 / 數碼

房產 / 家居

LLM把簡單任務復雜化，Karpathy無語：有些任務無需那么多思考

大轉彎!特朗普再提名馬斯克盟友任NASA局長

神二十推遲返回 專家：厘米級空間碎片可致航天器損壞

神二十推遲返回 專家：厘米級空間碎片可致航天器損壞

贏下皇馬，會是利物浦的轉折點嗎？

港星林尚武突發心臟病去世

事關加快建設金融強國 中央金融辦發聲

智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

態度原創

最新！海南樓市10月熱銷榜單出爐！

這屆干飯人，已經把博物館吃成了食堂

壞了，看到劇本殺鼻祖了！

美國“福特”號航母駛往加勒比海

神二十推遲返回專家：厘米級空間碎片可致航天器損壞

神二十推遲返回專家：厘米級空間碎片可致航天器損壞

事關加快建設金融強國中央金融辦發聲

智己LS9入局"9系"混戰全尺寸SUV市場迎來新變量