![]()
xAI 發布 Grok 4
"它具備超人級別的推理能力!", Grok 4 現在是領先的 AI 模型。
以下是 你需要了解的全部信息:
馬斯克聲稱 Grok 4 在所有學科領域都比幾乎所有研究生更聰明。訓練量是 Grok 2 的 100 倍。強化學習計算量是市面上任何模型的 10 倍。
![]()
在人類終極考試中的表現
馬斯克:"Grok 4 在各個領域都達到了博士后水平!"
![]()
HLE 擴展規律 - 更多訓練計算,更高智能水平。(不使用工具)
![]()
通過原生工具調用功能,Grok 4 的性能顯著提升。
看這些曲線圖!為 AI 配備合適的工具至關重要。
擴展效果一目了然。太瘋狂了!
![]()
可靠的信號是強化學習成功的關鍵。數據問題仍然是挑戰。
馬斯克:"AI 推理能力的終極測試是讓它在現實世界中運行。"
擴展測試時計算能力(Scaling Test-time)
HLE 測試中超過 50% 的純文本問題都被解決了!這些曲線圖越來越夸張。
![]()
Grok 4 是單智能體版本。Grok 4 Heavy 是多智能體版本。多智能體系統可不是鬧著玩的!
![]()
Grok 4 正在被用來預測今年的世界大賽冠軍。
這些才是推理模型需要接受測試的有趣任務。
要在真實的現實世界事件上驗證能力。
![]()
兩個黑洞碰撞的可視化展示。Grok 4 會使用各種參考資料比如論文,閱讀 PDF 文件,推理模擬的細節,并決定使用什么數據。
![]()
這個例子展示了 HLE 測試中時間線變化和分數公告的總結。
真是太酷了!
![]()
多模態性能方面,Grok 4 Heavy 的表現優于 Grok 4,但仍需進一步改進。據團隊表示,這是目前的薄弱環節之一。
推理基準測試的性能表現。
在 AIME25 測試中獲得滿分!
相比之前在這些任務上表現最好的模型,進步幅度簡直瘋狂。
模型測試渠道。
通過 SuperGrok Heavy 訂閱層級提供。Super Grok 每月 30 美元,SuperGrok Heavy 每月 300 美元。
![]()
還包含語音功能更新!Grok 響應更敏捷,設計更加自然。
- 速度提升 2 倍
- 5 種語音選擇
- 每日用戶使用時長增長 10 倍
ARC-AGI 測試中,Grok 4 在 ARC-AGI v2 (私有測試集) 上突破了 10% 的門檻,達到 15.9%。
這是第二名成績的 2 倍,而第二名正是 Claude Opus 4 模型。
![]()
Grok 4 在 Vending Bench 測試中獲得第一名。凈值表現是 Claude Opus 4 的兩倍。
![]()
Grok 4 模型可通過 xAI API 使用。25.6 萬 token 上下文窗口。實時數據搜索功能。
![]()
Grok 4 游戲應用!視頻理解是團隊正在改進的領域,因此這方面能力會持續提升。
![]()
下一步計劃是什么?智能和快速將是重點方向。編程模型也是重要發力點。更強大的多模態智能體也即將推出。視頻生成模型也在研發中。
![]()
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內容對你有用,
那我們就加個關注、交個朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.