<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      LLM把簡單任務復雜化,Karpathy無語:有些任務無需那么多思考

      0
      分享至



      機器之心報道

      編輯:冷貓

      隨著推理大模型和思維鏈的出現與普及,大模型具備了「深度思考」的能力,不同任務的泛用性得到了很大的提高。

      借助思維鏈,大模型能夠對任務進行深入分析,完成任務規劃與拆解,從而勝任長周期、復雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發現執行環節中的問題,并有針對性地調整指令,以更高效地完成目標。

      可以說,有了「深度思考」的推理模型,才有了現在擁有多種輔助功能與自主能力的 AI 智能體。

      但現在的大模型漸漸有些偏科了。為了構建應用能力更強的智能體,對長周期的復雜任務能力的追求已經影響到了大模型的推理模式。

      不知道大家在平常使用 AI 工具的時候有沒有發現,打開了深度思考后,一些簡單的任務也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準確的得到想要的回復。

      這種現象越來越明顯了,尤其是當大模型進入工作流(例如編碼工作)的時候,其負面效應就更加顯著。

      這不,AI 領域的大牛 Andrej Karpathy 也感覺到不對勁,發了長文推來指出這個令人無語的現象。



      Karpathy 說,「LLM 在默認狀態下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

      最明顯的的確是編碼任務,模型現在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復進行網絡搜索,對一些在開發中、且明顯并不完整的代碼里極少出現的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結果。

      尤其是在簡單的任務中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復雜的任務分析和代碼處理。

      因此 Karpathy 不得不經常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

      這帶來了很多麻煩,不僅是在編碼任務,我們發現日常使用 LLM 工具時候的類似打斷情況也越來越多了。

      簡單拿剛發布幾天的 GPT-5 舉個例子,發布時 OpenAI 顯然意識到深度思考的問題,所以他們強調 GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

      但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

      我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調用圖像編輯的功能。

      但結果它就開始進行「深度思考」了:



      經過了 38 秒的思考,它考慮了很多細節,但仍然未能開始使用圖像生成功能,導致不得不打斷它的任務進程。

      或許這也是用戶們無比懷念 GPT-4o 的原因之一。

      正如 Karpathy 指出的,隨著默認模式逐漸向這種「超深度思考」的高代理化狀態靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

      網友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





      對于這件事,Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優化」,為了在基準測試上得到更好的成績,LLM的思考就更傾向于長周期的復雜任務的實現,因此影響了普通任務的響應。



      他指出了兩種情境:

      1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

      2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風險很高。題目是「這樣對嗎?」

      人類協作者能很自然地區分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準測試的不斷「極限化」,它會越來越傾向于假設你問的是情境 2。

      這指出了大模型過度思考,復雜化任務的可能原因,大模型的發展不能完全以基準測試分數作為追求。

      關于大模型的「過度思考」,有相關經歷和想法歡迎在評論區分享。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      足球報:邵佳一確認當選中國國家隊新任主帥!

      足球報:邵佳一確認當選中國國家隊新任主帥!

      懂球帝
      2025-11-05 17:12:14
      戰機墜海后,美航母沖向黃巖島,中國要拔4根釘子,戰區高度戒備

      戰機墜海后,美航母沖向黃巖島,中國要拔4根釘子,戰區高度戒備

      知鑒明史
      2025-11-04 19:53:39
      臺當局做戰備,連戰送鄭麗文8個大字,洪秀柱一錘定音,勢必統一

      臺當局做戰備,連戰送鄭麗文8個大字,洪秀柱一錘定音,勢必統一

      博覽歷史
      2025-11-04 20:01:25
      中國國防部首次強硬表態:解放軍將全力打擊“臺獨”及外部干預!

      中國國防部首次強硬表態:解放軍將全力打擊“臺獨”及外部干預!

      Ck的蜜糖
      2025-11-05 00:42:42
      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      念洲
      2025-11-05 17:42:04
      華山西峰索道臨時停運百余人滯留,懸空游客稱“有點嚇人”,景區:大風天氣導致

      華山西峰索道臨時停運百余人滯留,懸空游客稱“有點嚇人”,景區:大風天氣導致

      極目新聞
      2025-11-05 20:33:08
      努爾哈赤把11歲女兒嫁給兄弟做妾,新婚當夜,新郎原配在帳外大罵

      努爾哈赤把11歲女兒嫁給兄弟做妾,新婚當夜,新郎原配在帳外大罵

      娛樂圈的嗶嗶王
      2025-10-30 15:12:53
      時機已到,該收拾高市早苗!中國亮出三個“嚴重”,必須殺雞儆猴

      時機已到,該收拾高市早苗!中國亮出三個“嚴重”,必須殺雞儆猴

      顧蔡衛
      2025-11-04 14:26:32
      陳永勝任浙江消防總隊長

      陳永勝任浙江消防總隊長

      靠山屯閑話
      2025-11-05 15:42:58
      中國004航母再傳新動態,美國航母優勢縮水!

      中國004航母再傳新動態,美國航母優勢縮水!

      楊風
      2025-11-03 22:06:19
      58000沒了?湖北男子守釣4天4夜,百斤巨青終上岸,拍照留念放生

      58000沒了?湖北男子守釣4天4夜,百斤巨青終上岸,拍照留念放生

      解說阿洎
      2025-11-05 09:15:23
      江蘇一市最新人事任免

      江蘇一市最新人事任免

      揚子晚報
      2025-11-05 17:39:35
      曹沖靠稱象成名,世人都夸他聰明絕頂,司馬懿:其實他是蠢到家了

      曹沖靠稱象成名,世人都夸他聰明絕頂,司馬懿:其實他是蠢到家了

      小豫講故事
      2025-11-05 06:00:03
      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      兵國大事
      2025-11-04 17:30:59
      1957年的裸體與熱吻,老外偷拍中國的那些照片,集齊了不易

      1957年的裸體與熱吻,老外偷拍中國的那些照片,集齊了不易

      霹靂炮
      2025-11-04 23:30:25
      一位資深地產大佬對于萬科現狀的解讀(1)

      一位資深地產大佬對于萬科現狀的解讀(1)

      科學發掘
      2025-11-05 11:47:58
      完了完了!突然一級拉傷!這可是NBA大年狀元郎

      完了完了!突然一級拉傷!這可是NBA大年狀元郎

      籃球實戰寶典
      2025-11-05 20:24:28
      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      樂悠悠娛樂
      2025-11-05 10:38:51
      社會因為缺錢,已出現這4個明顯的變化,你有沒有注意到?

      社會因為缺錢,已出現這4個明顯的變化,你有沒有注意到?

      貓叔東山再起
      2025-11-03 09:40:03
      離婚16年后,再看土豆網創始人夫婦的現狀,原來輸贏早已成定局!

      離婚16年后,再看土豆網創始人夫婦的現狀,原來輸贏早已成定局!

      近史談
      2025-11-04 13:23:06
      2025-11-05 20:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      本地
      時尚
      公開課
      軍事航空

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      壞了,看到劇本殺鼻祖了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美成人精品三级网站视频| 久久99精品国产麻豆婷婷| 精品国产第一国产综合精品| 亚洲另类丝袜综合网| 安远县| 特黄做受又粗又大又硬老头| 黑人av无码一区| 国产精品线在线精品国语| 亚洲国产成人av在线观看| 久久一日本道色综合久久| 一区二区不卡99精品日韩| 久久久久久久久18禁秘| 国产成人亚洲日韩欧美| 最新国产AV最新国产在钱 | 山阳县| 精品一区二区三区日韩版| 国产91午夜福利精品| 新宾| 久久99精品国产99久久6尤物| 欧美一本大道香蕉综合视频| 东宁县| 午夜免费啪视频| 久久综合亚洲色一区二区三区| 久久中文字幕无码一区二区| 亚洲天堂成人黄色在线播放| 起碰免费公开97在线视频 | 久久精品国产国产精品四凭| 欧美熟妇乱子伦XX视频| 亚洲人妻中文字幕一区| 亚洲AVAV天堂AV在线网阿V| 亚洲第一二三区日韩国产| 中文字幕精品av一区二区五区| 毛多水多高潮高清视频| 国产成人精品a视频一区| 九九在线精品国产| 久久精品国产亚洲精品色婷婷| 91久久久久无码精品露脸| 国产精品国产片在线观看| 熟妇好大好深好满好爽| 精品人妻码一区二区三区| 亚洲av成人午夜福利|