![]()
Julian Schrittwieser,AlphaGo、AlphaZero和MuZero的共同一作,平時非常低調的一位的AI大神(AlphaGo、AlphaZero、MuZero、AlphaCode、AlphaTensor、AlphaProof ,Gemini RL 技術人員成員, 前 DeepMind 首席研究工程師)最近,他觀察到一個現象,并就當前圍繞AI進展和所謂泡沫的討論發表了看法
![]()
AI進展停滯了?
Schrittwieser指出,當前對AI能力和未來進展的討論中,正發生著一些奇怪的事情
人們注意到,雖然AI現在可以編寫程序、設計網站等,但它仍然會犯錯或走向錯誤的方向。然后,他們不知何故就得出結論:AI將永遠無法在這些任務上達到人類水平,或者只會產生微小的影響
這些人似乎忘了,就在幾年前,讓AI做這些事情還完全是科幻小說的情節!
或者,他們看到連續發布的兩個模型,在對話中沒有察覺到太大差異,就斷定AI正在進入平臺期,規模化(scaling)已經走到盡頭
用METR數據說話:AI自主完成任務時長翻倍
準確評估AI的進展非常困難,通常需要AI專業知識和特定領域知識的結合。
幸運的是,有一些組織,比如METR,它們的唯一宗旨就是研究AI的能力。我們可以參考他們最近的一項研究“衡量AI完成長任務的能力”(Measuring AI Ability to Complete Long Tasks),該研究衡量了AI模型能自主執行軟件工程任務的長度
![]()
我們可以觀察到一條清晰的指數增長趨勢。其中,Sonnet 3.7取得了最佳表現,能夠以50%的成功率完成長達一小時的任務
然而,在當時,Sonnet 3.7已經是一個7個月前的模型了,這恰好與METR在研究中聲稱的“7個月能力翻一倍”的速率相符。我們能用這一點來驗證METR的發現是否站得住腳嗎?
答案是肯定的。事實上,METR自己在其研究網站上就維護著一張實時更新的圖表
![]()
我們可以看到,圖表的右上角新增了Grok 4、Opus 4.1和GPT-5等最新模型。這不僅驗證了此前的預測,而且這些新模型的表現實際上還略高于趨勢線,現在已經能執行超過2小時的任務!
不止于編程:跨行業表現同樣驚人
一個合理的質疑是,我們不能將軟件工程任務上的表現推廣到更廣泛的經濟領域——畢竟,這些是AI實驗室的工程師最熟悉的任務,可能會產生一定程度的“過擬合”。
我們可以參考另一項由OpenAI發布的最新研究:GDPval。這項研究衡量了模型在9個行業、44個職業中的表現
![]()
這項評估的任務來自經驗豐富的行業專業人士(平均擁有14年經驗),每個職業30個任務,總計1320個任務。評分則通過對人類和模型生成的解決方案進行盲評比較,結果可以是明確的偏好,也可以是平局
我們再次觀察到了類似的趨勢,最新的GPT-5已經驚人地接近人類的表現,你可能會覺得這張圖看起來有趨于平緩的跡象,但這很可能只是因為GPT-5是一個非常注重消費者體驗的模型
![]()
OpenAI在評估中也包含了其他模型。我們可以看到,比GPT-5更早發布的Claude Opus 4.1表現要好得多——領先于前一張圖表的趨勢,并且已經幾乎能與行業專家(!)的表現相媲美
![]()
2026將是關鍵一年
Schrittwieser總結道,鑒于多年來、跨多個行業觀察到的一致的指數級性能提升趨勢,如果這種改進突然停止,那將是極其令人意外的
相反,即使是對這些趨勢進行相對保守的外推,也表明2026年將是AI廣泛融入經濟的關鍵一年:
到2026年中期,模型將能夠自主工作一整天(8個工作小時)
在2026年底之前,至少會有一個模型在許多行業中達到人類專家的水平
到2027年底,模型在許多任務上的表現將頻繁超越專家
Schrittwieser認為,通過圖表上的直線進行外推,這種預測方法可能聽起來過于簡單,但它很可能比大多數“專家”——甚至比許多真正的領域專家——更能為你提供一個未來的模型。
如果想更具體地了解未來會是什么樣子,他推薦了Epoch AI的2030年報告,特別是其中深入的AI 2027項目
Epoch AI的2030年報告:
https://epoch.ai/blog/what-will-ai-look-like-in-2030
https://ai-2027.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.