![]()
新智元報道
編輯:傾傾 桃子
【新智元導(dǎo)讀】Kimi K2 Thinking重磅開源,1萬億「思考Agent模型」在推理、智能體基準上干翻GPT-5。關(guān)鍵,還能連調(diào)300次工具,直出3D模擬。
昨天,月之暗面發(fā)布全新模型Kimi K2 Thinking,一上線就擠爆了服務(wù)器。
思考,是它的核心賣點,自稱是開源的「思考Agent模型」。
![]()
它同樣采用了MoE架構(gòu),總參數(shù)約1萬億,每次激活約320億,上下文256K token。
在各大基準測試中,Kimi K2 Thinking性能表現(xiàn)亮眼。
尤其是,在BrowseComp、HLE測試中,實力完全碾壓GPT-5、Claude Sonnet 4.5。
![]()
在Tau2 Bench Telecom基準測試中,K2 Thinking位列第一。
![]()
最關(guān)鍵的是,在無人干預(yù)情況下,K2 Thinking可連續(xù)調(diào)用200-300次工具。
國外研究者Nathan Lambert 稱它為:「開源模型距閉源前沿最近的一次。」
這句話在技術(shù)圈廣為流傳,人們也開始重新審視這款模型。
![]()
![]()
不只是聊天工具,K2 Thinking更像是一個會自己推理、自己動手的智能體。
一款真正會思考的模型
Kimi K2 Thinking沒有強調(diào)算力更大,而是強調(diào)更會「思考」。
這些配置讓它在處理長文本、復(fù)雜任務(wù)時能維持更穩(wěn)定的推理過程。
蘋果大牛Awni Hannun測試后驚嘆道:
1萬億參數(shù),只用2臺M3 Ultra芯片的Mac電腦即可流暢運行,而且int4壓縮后性能幾乎無損。

通過mlx-lm并行技術(shù),它生成了大約3500個token,速度每秒15個token。
![]()
但真正讓人關(guān)注的,是它的「思考能力」。
如前所述,K2 Thinking可以在一次任務(wù)中連續(xù)執(zhí)行200到300次工具調(diào)用,全程無需人工干預(yù)。
有網(wǎng)友實測「工具調(diào)用」,立即制作出如下的數(shù)學(xué)和物理講解動畫。

不同于其他模型的胡編亂造,它在面對復(fù)雜問題時,會自己拆解步驟、搜索信息、調(diào)用外部工具、再整合結(jié)果。
團隊把這種機制稱為「交替思考」——模型在「思考」和「執(zhí)行」之間循環(huán)往復(fù),讓推理更連貫。
K2 Thinking在性能上的表現(xiàn)也很亮眼。
在Humanity’s Last Exam(HLE)和 BrowseComp(網(wǎng)頁搜索綜合能力)任務(wù)上,成績已經(jīng)接近甚至超過GPT-5和Claude Sonnet 4.5。
![]()
Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現(xiàn)
除了推理表現(xiàn),它在工程落地上也做了不少優(yōu)化。
K2使用量化感知訓(xùn)練(QAT)對MoE模塊進行INT4權(quán)重量化,在保證性能的同時,將生成速度提升了約兩倍。
除了推理和搜索任務(wù),K2 Thinking在編碼、工具使用、數(shù)學(xué)推理等更細分的測試中表現(xiàn)也很突出。
在SWE-bench、LiveCodeBench、GPQA-Diamond等任務(wù)上,它的成績已經(jīng)超過DeepSeek、GPT-4 Turbo等多個主流模型,顯示出更強的「執(zhí)行力」。
![]()
Kimi K2 Thinking在多項編程與數(shù)學(xué)任務(wù)中的表現(xiàn)對比
這意味著,K2 Thinking的測試成績就是它在真實環(huán)境下的表現(xiàn),而非理想化打分。
它目前已經(jīng)在kimi.com上線,并開源API和模型權(quán)重,開發(fā)者可以直接試用。
從實驗室到真實場景,這個模型的「思考能力」明顯超過了現(xiàn)有的其他模型。
智能體編碼一流,300次工具調(diào)用
這一次,月之暗面沒再讓模型停留在論文里。
K2 Thinking不是展示品,而是一臺真正能被人用起來的智能體。
發(fā)布當天,團隊同步上線了kimi.com聊天模式、開放了API接口,還在Hugging Face公布了完整權(quán)重。
![]()
https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source
開發(fā)者不需要等待內(nèi)測邀請,也不用注冊繁瑣流程,任何人都能直接使用。
K2 Thinking的從訓(xùn)練開始,到優(yōu)化,再到上線,周期不到半年。
在這個動輒以年為單位更新的大模型時代,這個速度意味著它已具備完整的工程化能力。
打開kimi.com,就能直接體驗到K2 Thinking的思考過程。
與一般聊天模型不同,它在生成答案前,會清晰地展示自己的推理鏈。
![]()
此外,研究人員特別提到,K2 Thinking在軟件和編碼任務(wù)上進步顯著。
它在 SWE-Multilingual測試中得分61.1% ,在SWE-Bench Verified測試中得分71.3%,在Terminal-Bench測試中得分47.1%。
這無疑證明了,該模型在HTML、React等方面的任務(wù)上有了很明顯的進步。
寫代碼前,先寫計劃
當用戶輸入「分析我發(fā)給你的CSV文件,并生成圖表來支持你的分析」時,K2不會直接輸出代碼。
他會先列出自己的行動方案:首先,加載數(shù)據(jù)集,接下來,篩選數(shù)據(jù)集,然后,分析內(nèi)容,調(diào)用繪圖庫,最終生成結(jié)果。
![]()
有了行動方案,它才會逐步生成代碼,執(zhí)行、驗證、修正。
如果出錯,它會提示「正在重新規(guī)劃」,然后自動嘗試新方案。整個過程,都能在屏幕上看到。
![]()
最終,我們能得到K2生成的數(shù)據(jù)分析圖表。
![]()
![]()
![]()
僅僅調(diào)用14次python,就能生成這樣完美的可視化圖表、準確的統(tǒng)計數(shù)據(jù)以及包含詳細分析的交互網(wǎng)頁。
私人定制行程:比管家還靠譜
你是否想過擁有一個完美管家?那K2可以滿足你的需求。
你只要提出你的需求,比如「我的預(yù)算是1000美元,給我規(guī)劃我的演唱會之旅」。
輸入之后,K2就會像一位盡職盡責(zé)的管家,詢問你的喜好、目的、工作安排,甚至查閱你的谷歌郵件。
![]()
之后,他開始搜索,查機票、看演唱會場次,甚至?xí)紤]到演唱會附近的餐廳。簡直比管家還貼心!
![]()
最后,結(jié)合各方數(shù)據(jù),交出最適合你的演唱會計劃。
而做到這些,僅僅調(diào)用了17次工具!很難想象如果親自做計劃,要耗時多久。
一針見血的數(shù)學(xué)講解員
除了長段的提示詞,短短幾句話,K2 Thinking也能完美運行。
比如,對它說「解釋二維梯度下降」。
它就能調(diào)用工具,以最直觀、形象的方式向你作出解釋:
藍色的等高線越靠近中心,函數(shù)值越小;黃色的路徑是優(yōu)化算法從起點到最優(yōu)點的下降軌跡;紅色小箭頭表示梯度(?f)的方向;黃色點表示當前的模型參數(shù)位置,它沿著梯度的反方向移動。

配合上動圖,一目了然。
觸手可及的「細胞戰(zhàn)」
不僅僅是數(shù)學(xué),K2 Thinking甚至進軍生物學(xué)領(lǐng)域!
你只要輸入「做一個可以調(diào)節(jié)免疫參數(shù)的病毒模擬程序」,就可以得到一個可交互的病毒仿真系統(tǒng)。

紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬。拖動滑塊,就能調(diào)整病毒復(fù)制率、免疫細胞數(shù)量。
對于Kimi K2 Thinking真實表現(xiàn),你怎么看?
參考資料:
https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means
https://x.com/Kimi_Moonshot/status/1986449512538513505
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.