網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

離GPT-5最近的一次！中國1萬億參數(shù)開源巨獸突然爆火

2025-11-07 12:31:27　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾桃子

【新智元導(dǎo)讀】Kimi K2 Thinking重磅開源，1萬億「思考Agent模型」在推理、智能體基準上干翻GPT-5。關(guān)鍵，還能連調(diào)300次工具，直出3D模擬。

昨天，月之暗面發(fā)布全新模型Kimi K2 Thinking，一上線就擠爆了服務(wù)器。

思考，是它的核心賣點，自稱是開源的「思考Agent模型」。

它同樣采用了MoE架構(gòu)，總參數(shù)約1萬億，每次激活約320億，上下文256K token。

在各大基準測試中，Kimi K2 Thinking性能表現(xiàn)亮眼。

尤其是，在BrowseComp、HLE測試中，實力完全碾壓GPT-5、Claude Sonnet 4.5。

在Tau2 Bench Telecom基準測試中，K2 Thinking位列第一。

最關(guān)鍵的是，在無人干預(yù)情況下，K2 Thinking可連續(xù)調(diào)用200-300次工具。

國外研究者Nathan Lambert 稱它為：「開源模型距閉源前沿最近的一次。」

這句話在技術(shù)圈廣為流傳，人們也開始重新審視這款模型。

不只是聊天工具，K2 Thinking更像是一個會自己推理、自己動手的智能體。

一款真正會思考的模型

Kimi K2 Thinking沒有強調(diào)算力更大，而是強調(diào)更會「思考」。

這些配置讓它在處理長文本、復(fù)雜任務(wù)時能維持更穩(wěn)定的推理過程。

蘋果大牛Awni Hannun測試后驚嘆道：

1萬億參數(shù)，只用2臺M3 Ultra芯片的Mac電腦即可流暢運行，而且int4壓縮后性能幾乎無損。

通過mlx-lm并行技術(shù)，它生成了大約3500個token，速度每秒15個token。

但真正讓人關(guān)注的，是它的「思考能力」。

如前所述，K2 Thinking可以在一次任務(wù)中連續(xù)執(zhí)行200到300次工具調(diào)用，全程無需人工干預(yù)。

有網(wǎng)友實測「工具調(diào)用」，立即制作出如下的數(shù)學(xué)和物理講解動畫。

不同于其他模型的胡編亂造，它在面對復(fù)雜問題時，會自己拆解步驟、搜索信息、調(diào)用外部工具、再整合結(jié)果。

團隊把這種機制稱為「交替思考」——模型在「思考」和「執(zhí)行」之間循環(huán)往復(fù)，讓推理更連貫。

K2 Thinking在性能上的表現(xiàn)也很亮眼。

在Humanity’s Last Exam（HLE）和 BrowseComp（網(wǎng)頁搜索綜合能力）任務(wù)上，成績已經(jīng)接近甚至超過GPT-5和Claude Sonnet 4.5。

Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現(xiàn)

除了推理表現(xiàn)，它在工程落地上也做了不少優(yōu)化。

K2使用量化感知訓(xùn)練（QAT）對MoE模塊進行INT4權(quán)重量化，在保證性能的同時，將生成速度提升了約兩倍。

除了推理和搜索任務(wù)，K2 Thinking在編碼、工具使用、數(shù)學(xué)推理等更細分的測試中表現(xiàn)也很突出。

在SWE-bench、LiveCodeBench、GPQA-Diamond等任務(wù)上，它的成績已經(jīng)超過DeepSeek、GPT-4 Turbo等多個主流模型，顯示出更強的「執(zhí)行力」。

Kimi K2 Thinking在多項編程與數(shù)學(xué)任務(wù)中的表現(xiàn)對比

這意味著，K2 Thinking的測試成績就是它在真實環(huán)境下的表現(xiàn)，而非理想化打分。

它目前已經(jīng)在kimi.com上線，并開源API和模型權(quán)重，開發(fā)者可以直接試用。

從實驗室到真實場景，這個模型的「思考能力」明顯超過了現(xiàn)有的其他模型。

智能體編碼一流，300次工具調(diào)用

這一次，月之暗面沒再讓模型停留在論文里。

K2 Thinking不是展示品，而是一臺真正能被人用起來的智能體。

發(fā)布當天，團隊同步上線了kimi.com聊天模式、開放了API接口，還在Hugging Face公布了完整權(quán)重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

開發(fā)者不需要等待內(nèi)測邀請，也不用注冊繁瑣流程，任何人都能直接使用。

K2 Thinking的從訓(xùn)練開始，到優(yōu)化，再到上線，周期不到半年。

在這個動輒以年為單位更新的大模型時代，這個速度意味著它已具備完整的工程化能力。

打開kimi.com，就能直接體驗到K2 Thinking的思考過程。

與一般聊天模型不同，它在生成答案前，會清晰地展示自己的推理鏈。

此外，研究人員特別提到，K2 Thinking在軟件和編碼任務(wù)上進步顯著。

它在 SWE-Multilingual測試中得分61.1% ，在SWE-Bench Verified測試中得分71.3%，在Terminal-Bench測試中得分47.1%。

這無疑證明了，該模型在HTML、React等方面的任務(wù)上有了很明顯的進步。

寫代碼前，先寫計劃

當用戶輸入「分析我發(fā)給你的CSV文件，并生成圖表來支持你的分析」時，K2不會直接輸出代碼。

他會先列出自己的行動方案：首先，加載數(shù)據(jù)集，接下來，篩選數(shù)據(jù)集，然后，分析內(nèi)容，調(diào)用繪圖庫，最終生成結(jié)果。

有了行動方案，它才會逐步生成代碼，執(zhí)行、驗證、修正。

如果出錯，它會提示「正在重新規(guī)劃」，然后自動嘗試新方案。整個過程，都能在屏幕上看到。

最終，我們能得到K2生成的數(shù)據(jù)分析圖表。

僅僅調(diào)用14次python，就能生成這樣完美的可視化圖表、準確的統(tǒng)計數(shù)據(jù)以及包含詳細分析的交互網(wǎng)頁。

私人定制行程：比管家還靠譜

你是否想過擁有一個完美管家？那K2可以滿足你的需求。

你只要提出你的需求，比如「我的預(yù)算是1000美元，給我規(guī)劃我的演唱會之旅」。

輸入之后，K2就會像一位盡職盡責(zé)的管家，詢問你的喜好、目的、工作安排，甚至查閱你的谷歌郵件。

之后，他開始搜索，查機票、看演唱會場次，甚至?xí)紤]到演唱會附近的餐廳。簡直比管家還貼心！

最后，結(jié)合各方數(shù)據(jù)，交出最適合你的演唱會計劃。

而做到這些，僅僅調(diào)用了17次工具！很難想象如果親自做計劃，要耗時多久。

一針見血的數(shù)學(xué)講解員

除了長段的提示詞，短短幾句話，K2 Thinking也能完美運行。

比如，對它說「解釋二維梯度下降」。

它就能調(diào)用工具，以最直觀、形象的方式向你作出解釋：

藍色的等高線越靠近中心，函數(shù)值越小；黃色的路徑是優(yōu)化算法從起點到最優(yōu)點的下降軌跡；紅色小箭頭表示梯度（?f）的方向；黃色點表示當前的模型參數(shù)位置，它沿著梯度的反方向移動。

配合上動圖，一目了然。

觸手可及的「細胞戰(zhàn)」

不僅僅是數(shù)學(xué)，K2 Thinking甚至進軍生物學(xué)領(lǐng)域！

你只要輸入「做一個可以調(diào)節(jié)免疫參數(shù)的病毒模擬程序」，就可以得到一個可交互的病毒仿真系統(tǒng)。

紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬。拖動滑塊，就能調(diào)整病毒復(fù)制率、免疫細胞數(shù)量。

對于Kimi K2 Thinking真實表現(xiàn)，你怎么看？

參考資料：

https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means

https://x.com/Kimi_Moonshot/status/1986449512538513505

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

世界盡頭與冷酷仙境，誰押中了「國產(chǎn)GPU四小龍」？

鈦媒體APP 2025-11-06 16:04:21
0 跟貼 0
國產(chǎn)模型新盛況！王座易主：Kimi K2 Thinking開源超閉源

機器之心Pro 2025-11-07 12:55:41
0 跟貼 0

RLinf上新πRL：在線強化學(xué)習(xí)微調(diào)π0和π0.5

機器之心Pro 2025-11-06 17:29:51
0 跟貼 0

又一推理新范式：將LLM自身視作改進操作符，突破長思維鏈極限

機器之心Pro 2025-10-04 18:35:49
0 跟貼 0
AI跌價900倍，連一瓶礦泉水都比它貴！

新智元 2025-11-05 19:51:51
43 跟貼 43

在失敗中進化？UIUC聯(lián)合斯坦福、AMD實現(xiàn)智能體「從錯誤中成長」

機器之心Pro 2025-11-07 13:00:48
0 跟貼 0

智能體驅(qū)動：企業(yè)從“界面操作”到“智能助力”的必然路徑

鈦媒體APP 2025-10-20 16:40:12
0 跟貼 0
比例模型是如何能準確模擬全尺寸船只行為的？！

大哥搞笑配音 2025-11-07 11:13:12
1 跟貼 1

媒體：歐洲發(fā)現(xiàn)美國沒能力收拾荷蘭的"爛攤子"

澎湃新聞 2025-11-06 21:52:46
10944 跟貼 10944
開源即爆火！英偉達重磅推出OmniVinci全模態(tài)大模型

機器之心Pro 2025-11-06 15:54:29
4 跟貼 4
1斤豆芽賣28.8元？網(wǎng)友直呼“吃不起”，知名餐飲品牌回應(yīng)

都市快報橙柿互動 2025-11-02 16:20:16
8609 跟貼 8609
陳永勝已任浙江省消防救援總隊總隊長，由遼寧跨省調(diào)任

澎湃新聞 2025-11-06 20:26:41
207 跟貼 207
國外小哥用鋼絲制造獨一無二的飛機模型

奇奇趣世界 2025-11-07 09:45:48
3 跟貼 3
字節(jié)通用游戲智能體Game-TARS，像人一樣用鍵鼠征服千款游戲

魏家東 2025-11-07 09:36:51
0 跟貼 0
國務(wù)院公告后搜索暴漲3倍上海人立馬出手：怕?lián)尣坏?/a>

極目新聞 2025-11-05 15:06:20
737 跟貼 737
神舟二十號為啥被撞權(quán)威解讀來了

BRTV新聞 2025-11-06 16:21:50
1722 跟貼 1722
微信、清華提出CALM，新范式實現(xiàn)「離散詞元」到「連續(xù)向量」轉(zhuǎn)變

機器之心Pro 2025-11-07 14:26:29
0 跟貼 0
上帝視角！DeepMind提前5天鎖定Melissa，強度預(yù)報不再靠天

新智元 2025-11-07 10:12:09
4 跟貼 4
蘇州市委常委、副市長唐曉東被查，曾任吳中區(qū)委書記

澎湃新聞 2025-11-07 10:26:27
169 跟貼 169
智能體幫我做實盤？如何讓口袋安安全全

卡爾的AI沃茨 2025-11-06 03:42:16
0 跟貼 0
主播直播前調(diào)整美顏參數(shù)，調(diào)整后判若兩人，還有什么是真的！

青青醬愛搞笑 2025-11-05 11:00:02
1 跟貼 1
根系關(guān)系第2講，求參數(shù)的值

大鵬老師講數(shù)學(xué) 2025-11-04 05:07:00
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0
亞馬遜裁員1.4萬人普通人如何避免被算法“優(yōu)化”掉？

DeepTech深科技 2025-11-07 13:52:55
0 跟貼 0
張家界荒野求生挑戰(zhàn)賽進入第30天，賽事方：百人參賽僅剩17名“狠人”，有人已瘦30斤

極目新聞 2025-11-07 11:34:15
0 跟貼 0
AI重塑工業(yè)文化 “人工智能驅(qū)動工業(yè)變革的機遇與挑戰(zhàn)”圓桌對話舉行

每日經(jīng)濟新聞 2025-11-07 11:47:08
0 跟貼 0
舷號“18”！福建艦，入列！

北京日報客戶端 2025-11-07 13:10:23
481 跟貼 481
陳芋汐/掌敏潔獲得全運會跳水女子雙人10米臺冠軍

界面新聞 2025-11-06 18:52:21
1644 跟貼 1644
直播間購“地王卡”到貨“縮水”，說好的1000分鐘通話哪去了？聯(lián)通回應(yīng)用戶質(zhì)疑：渠道方存“宣傳異常”

大風(fēng)新聞 2025-11-06 15:26:05
371 跟貼 371
上海浦東：已總體達到CPTPP和DEPA正文條款的開放水平

第一財經(jīng)資訊 2025-11-06 15:57:09
663 跟貼 663
機場回應(yīng)：不是飛機出來了，可能是模型什么的

江西都市現(xiàn)場 2025-11-05 14:15:29
0 跟貼 0
MIT博士生攻關(guān)淬火工藝，為核反應(yīng)堆降溫，打造下一代航天器

DeepTech深科技 2025-11-07 13:26:01
0 跟貼 0
今天！全市供熱系統(tǒng)啟動熱態(tài)調(diào)試

天津廣播 2025-11-07 10:44:28
196 跟貼 196
Cell子刊：陳昶/歐陽宏偉合作開發(fā)新型水凝膠，用于緊急止血和組織再生

生物世界 2025-11-07 12:11:09
0 跟貼 0
上海這座跨江大橋終于要改了！網(wǎng)友拍手叫好：不用起個大早，排隊等電梯了

新民晚報 2025-11-07 12:53:03
12 跟貼 12
等高模型：根據(jù)“等高的三角形面積比等于底的比”求解

公考客棧店小二 2025-11-04 11:30:00
0 跟貼 0
美軍隊兵臨城下委內(nèi)瑞拉部署“武器模型”迷惑敵人

Bobo字幕組 2025-11-05 16:54:31
35 跟貼 35
時隔8年，劉強東重返世界互聯(lián)網(wǎng)大會并做主題演講

極目新聞 2025-11-07 11:34:15
152 跟貼 152
GPT-5編程成績有貓膩！自刪23道測試題，關(guān)鍵基準還是自己提的

量子位 2025-08-12 13:12:51
0 跟貼 0
機構(gòu)：2035年全球固態(tài)電池需求量預(yù)計將達到740GWh

智車情報局 2025-11-07 14:11:47
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

13807文章數(shù) 66238關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

藝術(shù)

房產(chǎn)

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
為何密封包裝的大米也會生蟲？該如何防治？
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

離GPT-5最近的一次！中國1萬億參數(shù)開源巨獸突然爆火

75%贊成！特斯拉股東同意馬斯克天價薪酬

男子半價買哪吒"爛尾車"：價格真香 不倒閉都不會買

男子半價買哪吒"爛尾車"：價格真香 不倒閉都不會買

是天才更是強者，18歲的全紅嬋邁過三道坎

白百何回應(yīng)東京電影節(jié)爭議

老登們的社交貨幣全崩了

小鵬X9增程版綜合續(xù)航1606公里 有底氣挑戰(zhàn)賽那？

態(tài)度原創(chuàng)

這屆干飯人，已經(jīng)把博物館吃成了食堂

Donna Young：美國當代藝術(shù)家

錨定居住新趨勢！廣佛新世界重構(gòu)灣區(qū)“理想生活投資學(xué)”

冬季的“松弛感”，怎么穿？

男子半價買哪吒"爛尾車"：價格真香不倒閉都不會買

男子半價買哪吒"爛尾車"：價格真香不倒閉都不會買

小鵬X9增程版綜合續(xù)航1606公里有底氣挑戰(zhàn)賽那？