<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      離GPT-5最近的一次!中國1萬億參數(shù)開源巨獸突然爆火

      0
      分享至


      新智元報道

      編輯:傾傾 桃子

      【新智元導(dǎo)讀】Kimi K2 Thinking重磅開源,1萬億「思考Agent模型」在推理、智能體基準上干翻GPT-5。關(guān)鍵,還能連調(diào)300次工具,直出3D模擬。

      昨天,月之暗面發(fā)布全新模型Kimi K2 Thinking,一上線就擠爆了服務(wù)器。

      思考,是它的核心賣點,自稱是開源的「思考Agent模型」。


      它同樣采用了MoE架構(gòu),總參數(shù)約1萬億,每次激活約320億,上下文256K token。

      在各大基準測試中,Kimi K2 Thinking性能表現(xiàn)亮眼。

      尤其是,在BrowseComp、HLE測試中,實力完全碾壓GPT-5、Claude Sonnet 4.5。


      在Tau2 Bench Telecom基準測試中,K2 Thinking位列第一。


      最關(guān)鍵的是,在無人干預(yù)情況下,K2 Thinking可連續(xù)調(diào)用200-300次工具。

      國外研究者Nathan Lambert 稱它為:「開源模型距閉源前沿最近的一次。」

      這句話在技術(shù)圈廣為流傳,人們也開始重新審視這款模型。



      不只是聊天工具,K2 Thinking更像是一個會自己推理、自己動手的智能體。

      一款真正會思考的模型

      Kimi K2 Thinking沒有強調(diào)算力更大,而是強調(diào)更會「思考」。

      這些配置讓它在處理長文本、復(fù)雜任務(wù)時能維持更穩(wěn)定的推理過程。

      蘋果大牛Awni Hannun測試后驚嘆道:

      1萬億參數(shù),只用2臺M3 Ultra芯片的Mac電腦即可流暢運行,而且int4壓縮后性能幾乎無損。


      通過mlx-lm并行技術(shù),它生成了大約3500個token,速度每秒15個token。


      但真正讓人關(guān)注的,是它的「思考能力」。

      如前所述,K2 Thinking可以在一次任務(wù)中連續(xù)執(zhí)行200到300次工具調(diào)用,全程無需人工干預(yù)。

      有網(wǎng)友實測「工具調(diào)用」,立即制作出如下的數(shù)學(xué)和物理講解動畫。


      不同于其他模型的胡編亂造,它在面對復(fù)雜問題時,會自己拆解步驟、搜索信息、調(diào)用外部工具、再整合結(jié)果。

      團隊把這種機制稱為「交替思考」——模型在「思考」和「執(zhí)行」之間循環(huán)往復(fù),讓推理更連貫。

      K2 Thinking在性能上的表現(xiàn)也很亮眼。

      在Humanity’s Last Exam(HLE)和 BrowseComp(網(wǎng)頁搜索綜合能力)任務(wù)上,成績已經(jīng)接近甚至超過GPT-5和Claude Sonnet 4.5。


      Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現(xiàn)

      除了推理表現(xiàn),它在工程落地上也做了不少優(yōu)化。

      K2使用量化感知訓(xùn)練(QAT)對MoE模塊進行INT4權(quán)重量化,在保證性能的同時,將生成速度提升了約兩倍。

      除了推理和搜索任務(wù),K2 Thinking在編碼、工具使用、數(shù)學(xué)推理等更細分的測試中表現(xiàn)也很突出。

      在SWE-bench、LiveCodeBench、GPQA-Diamond等任務(wù)上,它的成績已經(jīng)超過DeepSeek、GPT-4 Turbo等多個主流模型,顯示出更強的「執(zhí)行力」。


      Kimi K2 Thinking在多項編程與數(shù)學(xué)任務(wù)中的表現(xiàn)對比

      這意味著,K2 Thinking的測試成績就是它在真實環(huán)境下的表現(xiàn),而非理想化打分。

      它目前已經(jīng)在kimi.com上線,并開源API和模型權(quán)重,開發(fā)者可以直接試用。

      從實驗室到真實場景,這個模型的「思考能力」明顯超過了現(xiàn)有的其他模型。

      智能體編碼一流,300次工具調(diào)用

      這一次,月之暗面沒再讓模型停留在論文里。

      K2 Thinking不是展示品,而是一臺真正能被人用起來的智能體。

      發(fā)布當天,團隊同步上線了kimi.com聊天模式、開放了API接口,還在Hugging Face公布了完整權(quán)重。


      https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source

      開發(fā)者不需要等待內(nèi)測邀請,也不用注冊繁瑣流程,任何人都能直接使用。

      K2 Thinking的從訓(xùn)練開始,到優(yōu)化,再到上線,周期不到半年。

      在這個動輒以年為單位更新的大模型時代,這個速度意味著它已具備完整的工程化能力。

      打開kimi.com,就能直接體驗到K2 Thinking的思考過程。

      與一般聊天模型不同,它在生成答案前,會清晰地展示自己的推理鏈。


      此外,研究人員特別提到,K2 Thinking在軟件和編碼任務(wù)上進步顯著。

      它在 SWE-Multilingual測試中得分61.1% ,在SWE-Bench Verified測試中得分71.3%,在Terminal-Bench測試中得分47.1%。

      這無疑證明了,該模型在HTML、React等方面的任務(wù)上有了很明顯的進步。

      寫代碼前,先寫計劃

      當用戶輸入「分析我發(fā)給你的CSV文件,并生成圖表來支持你的分析」時,K2不會直接輸出代碼。

      他會先列出自己的行動方案:首先,加載數(shù)據(jù)集,接下來,篩選數(shù)據(jù)集,然后,分析內(nèi)容,調(diào)用繪圖庫,最終生成結(jié)果。


      有了行動方案,它才會逐步生成代碼,執(zhí)行、驗證、修正。

      如果出錯,它會提示「正在重新規(guī)劃」,然后自動嘗試新方案。整個過程,都能在屏幕上看到。


      最終,我們能得到K2生成的數(shù)據(jù)分析圖表。




      僅僅調(diào)用14次python,就能生成這樣完美的可視化圖表、準確的統(tǒng)計數(shù)據(jù)以及包含詳細分析的交互網(wǎng)頁。

      私人定制行程:比管家還靠譜

      你是否想過擁有一個完美管家?那K2可以滿足你的需求。

      你只要提出你的需求,比如「我的預(yù)算是1000美元,給我規(guī)劃我的演唱會之旅」。

      輸入之后,K2就會像一位盡職盡責(zé)的管家,詢問你的喜好、目的、工作安排,甚至查閱你的谷歌郵件。


      之后,他開始搜索,查機票、看演唱會場次,甚至?xí)紤]到演唱會附近的餐廳。簡直比管家還貼心!


      最后,結(jié)合各方數(shù)據(jù),交出最適合你的演唱會計劃。

      而做到這些,僅僅調(diào)用了17次工具!很難想象如果親自做計劃,要耗時多久。

      一針見血的數(shù)學(xué)講解員

      除了長段的提示詞,短短幾句話,K2 Thinking也能完美運行。

      比如,對它說「解釋二維梯度下降」。

      它就能調(diào)用工具,以最直觀、形象的方式向你作出解釋:

      藍色的等高線越靠近中心,函數(shù)值越小;黃色的路徑是優(yōu)化算法從起點到最優(yōu)點的下降軌跡;紅色小箭頭表示梯度(?f)的方向;黃色點表示當前的模型參數(shù)位置,它沿著梯度的反方向移動。


      配合上動圖,一目了然。

      觸手可及的「細胞戰(zhàn)」

      不僅僅是數(shù)學(xué),K2 Thinking甚至進軍生物學(xué)領(lǐng)域!

      你只要輸入「做一個可以調(diào)節(jié)免疫參數(shù)的病毒模擬程序」,就可以得到一個可交互的病毒仿真系統(tǒng)。


      紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬。拖動滑塊,就能調(diào)整病毒復(fù)制率、免疫細胞數(shù)量。

      對于Kimi K2 Thinking真實表現(xiàn),你怎么看?

      參考資料:

      https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means

      https://x.com/Kimi_Moonshot/status/1986449512538513505

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      泳裝女神,從悉尼甜心到全球女神的逆襲之路,這身材著實飽滿啊!

      泳裝女神,從悉尼甜心到全球女神的逆襲之路,這身材著實飽滿啊!

      妮妮玩不夠
      2025-10-21 08:32:44
      1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      小影的娛樂
      2025-10-24 08:04:06
      余文杰,擬任正廳級領(lǐng)導(dǎo)職務(wù)

      余文杰,擬任正廳級領(lǐng)導(dǎo)職務(wù)

      魯中晨報
      2025-11-07 07:15:01
      安世反擊戰(zhàn)打響,聞泰科技再將一軍!荷蘭已經(jīng)無法收場?

      安世反擊戰(zhàn)打響,聞泰科技再將一軍!荷蘭已經(jīng)無法收場?

      北向財經(jīng)
      2025-11-05 11:04:50
      她這大體格身材,顏值氣質(zhì)都是十分完美,真的不錯

      她這大體格身材,顏值氣質(zhì)都是十分完美,真的不錯

      陳意小可愛
      2025-10-21 12:53:32
      害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

      害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

      文史達觀
      2025-11-05 17:36:09
      當雷軍的抖音被投訴下架,到底是口碑反噬還是“豢養(yǎng)粉絲”

      當雷軍的抖音被投訴下架,到底是口碑反噬還是“豢養(yǎng)粉絲”

      張小俗
      2025-11-06 20:43:00
      軍事專家:福建艦將成為南海的定海神針

      軍事專家:福建艦將成為南海的定海神針

      環(huán)球網(wǎng)資訊
      2025-11-07 15:07:19
      上海贅婿帶小三產(chǎn)檢后續(xù):原配照片曝光,比小三漂亮多了

      上海贅婿帶小三產(chǎn)檢后續(xù):原配照片曝光,比小三漂亮多了

      江山揮筆
      2025-11-03 14:47:10
      為何全紅嬋賽后拒絕離場?原因找到,雙向奔赴的溫暖看哭網(wǎng)友

      為何全紅嬋賽后拒絕離場?原因找到,雙向奔赴的溫暖看哭網(wǎng)友

      體育見習(xí)官
      2025-11-07 08:32:57
      童言無忌多令人頭皮發(fā)麻?刷到網(wǎng)友的親身經(jīng)歷,憋笑到內(nèi)傷!

      童言無忌多令人頭皮發(fā)麻?刷到網(wǎng)友的親身經(jīng)歷,憋笑到內(nèi)傷!

      夜深愛雜談
      2025-11-04 21:09:37
      授勛還是送命?烏軍這次“表彰大會”,到底誰該被問責(zé)

      授勛還是送命?烏軍這次“表彰大會”,到底誰該被問責(zé)

      呂喆有話說
      2025-11-07 09:20:42
      生了三胎后,67歲的梁錦松為了讓41歲的伏明霞再拼第4胎

      生了三胎后,67歲的梁錦松為了讓41歲的伏明霞再拼第4胎

      沒有偏旁的常慶
      2025-11-07 06:41:13
      全新坦克400售價24.98萬起,開啟潮酷越野新時代,年輕人直呼真香

      全新坦克400售價24.98萬起,開啟潮酷越野新時代,年輕人直呼真香

      座駕參謀
      2025-11-07 14:49:04
      完爆胡明軒+碾壓趙睿!廣東“真核”狂轟48+9+6,保送杜鋒進決賽

      完爆胡明軒+碾壓趙睿!廣東“真核”狂轟48+9+6,保送杜鋒進決賽

      緋雨兒
      2025-11-07 12:32:26
      80%的自閉癥,都是從娘胎里開始的,胎驚入脈,往往離不開這三點

      80%的自閉癥,都是從娘胎里開始的,胎驚入脈,往往離不開這三點

      阿燕姐說育兒
      2025-11-05 14:20:46
      頂級潛伏者:吳石僅排第5,錢壯飛排第2,第1名老蔣到死都沒明白

      頂級潛伏者:吳石僅排第5,錢壯飛排第2,第1名老蔣到死都沒明白

      白面書誏
      2025-10-31 09:20:02
      山姆幾百萬會員,到底在抵制什么?

      山姆幾百萬會員,到底在抵制什么?

      麥大人
      2025-11-07 14:40:56
      馬刺兩連敗的背后:文班亞馬或提前退出MVP爭奪

      馬刺兩連敗的背后:文班亞馬或提前退出MVP爭奪

      姜大叔侃球
      2025-11-07 12:25:13
      史上最大軍售黃了?埃及剛要買中國殲-10,轉(zhuǎn)頭簽美國332億大單

      史上最大軍售黃了?埃及剛要買中國殲-10,轉(zhuǎn)頭簽美國332億大單

      起喜電影
      2025-11-07 14:12:23
      2025-11-07 15:31:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      13807文章數(shù) 66238關(guān)注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      男子半價買哪吒"爛尾車":價格真香 不倒閉都不會買

      頭條要聞

      男子半價買哪吒"爛尾車":價格真香 不倒閉都不會買

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      白百何回應(yīng)東京電影節(jié)爭議

      財經(jīng)要聞

      老登們的社交貨幣全崩了

      汽車要聞

      小鵬X9增程版綜合續(xù)航1606公里 有底氣挑戰(zhàn)賽那?

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      房產(chǎn)
      時尚
      公開課

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      藝術(shù)要聞

      Donna Young:美國當代藝術(shù)家

      房產(chǎn)要聞

      錨定居住新趨勢!廣佛新世界重構(gòu)灣區(qū)“理想生活投資學(xué)”

      冬季的“松弛感”,怎么穿?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 蜜桃AV抽搐高潮一区二区| 毛茸茸性xxxx毛茸茸毛茸茸| xxxxbbbb欧美残疾人| 天美传媒xxxxhd videos3| 日韩视频一区二区三区视频| 一本色道婷婷久久欧美| 亚洲天堂男人影院| 成人av午夜在线观看| 成人国产亚洲精品天堂av| 国产极品美女网站在线观看| 亚洲产在线精品亚洲第一站一| 国内精品伊人久久久久AV一坑| 91久久精品国产性色也| 亚洲欧美中文字幕日韩一区二区| 亚洲狠狠婷婷综合久久久| 日本深夜福利在线观看| 成人福利一区二区视频在线| 欧美人与禽2o2o性论交| 国产在线一区二区不卡| 久久精品一本到99热免费| 亚洲欧美日韩在线码| 国产成人啪精品午夜网站| 久久男人av资源站| 国产白嫩护士在线播放| 亚洲国产成人无码av在线播放| 欧美久久精品一级c片免费| 日日噜噜大屁股熟妇| 狠狠亚洲丁香综合久久| 亚洲精品区二区三区蜜桃| 深夜国产成人福利在线观看| 亚洲一本大道在线| 乱人伦中文视频在线| 色悠悠国产精品免费观看| 99e久热只有精品8在线直播| 日本道之久夂综合久久爱| 亚洲欧洲日韩精品在线| 中文字幕在线日韩| 久久精品国产亚洲AV瑜伽| 久99久热这里只有精品| 亚洲精品乱码久久久久久按摩高清| 欧洲美熟女乱又伦免费视频|