網易首頁 > 網易號 > 正文申請入駐

騰訊加碼空間智能大模型，這一賽道正在成為下一個風口

2025-08-09 12:37:59　來源: 首席商業評論

浙江舉報

分享至

混元3D模型有什么不同

2018年電影《頭號玩家》橫空出世，一個完全虛擬但又有較為真實體驗的世界，拉開了元宇宙世界的序幕，依靠VR設備就能創造一個嶄新的世界過去被視作科幻想象。但在今天這一切也許有了可能。

騰訊混元世界3D模型，讓我們看到了探索這種未來可能性，低成本人人可以參與創造，虛擬且真實的世界正在到來。

在 2025 世界人工智能大會騰訊論壇上，騰訊正式發布并開源其全新「混元 3D 世界模型 1.0」，該模型不僅支持通過文本或圖像生成完整 3D 場景，還具備 360° 沉浸式漫游、資產導出為標準 mesh 格式、支持主流建模軟件編輯等功能，真正實現從“AI 能畫”到“人能用”的躍遷。

在生成式 AI 重塑 3D 內容創作流程的浪潮中，一場場技術革新正悄然改變游戲、美術、影視等產業的生產底座。作為最受歡迎的 3D 開源模型之一，混元 3D 模型在Hugging Face 平臺下載量已超過 230 萬，廣受全球開發者認可。

年初的時候騰訊就已經發布過了自己的3D模型，但彼時模型還不夠成熟，只能生成單一物體互動性較弱。在今年 4 月的 2025 全球機器學習技術大會上，騰訊混元 3D 項目負責人郭春超接受 CSDN 專訪時就提到：騰訊混元 3D 系列模型正從“重建一個物體”到“生成一個場景”，再到“理解一個世界” 邁進，他們希望生成的不只是一個‘看起來像’的模型，而是一個創作者可以直接使用的可交付資產。

這次更新的空間模型能力堪稱炸裂。騰訊混元團隊也從定量角度評估混元世界模型 1.0 性能，針對 360° 全景與 3D 場景生成能力，與開源或者開放接口工作進行了對比，包括紋理細節、美學質量、指令遵循等評價維度，結果顯示，混元世界模型 1.0 在生成質量上全面超過了 SOTA 開源模型。

與此同時，騰訊混元還宣布了一系列后續開源計劃，包括多模態理解模型、游戲視覺模型，以及適用于邊緣設備的端側大語言模型（0.5B、1.8B、4B、7B），覆蓋從 3D 世界生成到小模型部署的完整生態鏈條。這一次，騰訊不僅把 3D 內容生成從「生成一個物體」升級到「生成一個世界」，還希望以開源的方式，撬動整個3D AIGC 創作生態。

那么從普通用戶可感知的角度這事有什么可聊的呢？

混元模型可基于一句文本描述或一張圖像輸入，生成一個 360 度沉浸式的三維場景。例如，你只需輸入「一個破舊的加油站，夜晚下著雨，遠處有霓虹燈」，它就能構建出加油站主體、環境、天空光照、閃電等元素構成的完整空間。

除了能看，還能動。混元世界模型支持構建“可行走”的場景地圖。生成的世界不僅是封閉空間和固定視角，也支持在場景中自由漫游，體驗類似游戲或虛擬現實的交互感。“可行走”過去很多空間模型也展示過，但是多數存在視角丟失，缺少空間感連續性，更不要說拿來做連續項目開發了。

為此騰訊選擇了大膽創新，不完全采用3D方式來構建。純 3D 生成：優點是空間結構穩定，但受限于高質量 3D 數據的稀缺，生成的多樣性和創造力不足。

純 2D 視頻生成（如 Google 基礎世界模型 Genie）：優點是交互和動態效果豐富，但缺乏三維空間的穩定性約束。你往前走再回頭，場景可能已經「面目全非」，無法構建一個邏輯自洽的世界。騰訊混元團隊選擇了一條更聰明、也更復雜的「2D+3D 結合」的混合路線，取長補短。

對于游戲開發者而言，這是前所未有的生產力革命。傳統的游戲場景搭建，需要建模師耗費數周甚至數月的時間手動完成。現在，只需一句指令，就能快速生成一個高質量的場景原型，用于前期的玩法驗證。這能極大地縮短開發周期，降低試錯成本。同時，模型生成的各種道具、建筑也能作為基礎素材，大大提升資產生產效率。對于普通 3D 愛好者和內容創作者，它則徹底拉低了創作的門檻。你不需要懂復雜的三維建模軟件，也能創造屬于自己的虛擬世界，并將其導入到 Vision Pro 等設備中沉浸式體驗。

那么是不是一個全新的空間智能時代就此來臨？倒也不必這么樂觀。目前的空間模型還處在相對初級的階段，約束條件較多，仿真數據只能解決部分問題，在當前的大模型框架下，想要真正創造復雜動態多變的“世界”，還是有些科幻的。

空間智能戰爭打響

談到空間智能就不能不談世界模型，模型對空間的準確理解和構建是基礎，但世界模型相對更復雜一些，會加入一些物理推理、因果推理等更維的約束，具備預測生成能力可以參與復雜決策系統。所以看上去空間智能模型更像是世界模型的前一階段，具有一定子集性質。

但從實踐上，空間智能模型，也會具有一些物理推理，比如騰訊的混元3D模型，也具備生成一個世界的能力，也可以說是一個基礎世界模型。

“世界模型”被業內吹捧為是AI領域的下一個關鍵突破，那么“世界模型”到底指的是什么？它的重要之處在于哪里？

過去AI視頻經常被人吐槽的是空間錯亂不懂物理規則，比如大象跟老鼠一樣重，三只手的人，懸浮的公路，汽車可以像幽靈一樣穿過另一輛車等等。

因此傳統AI模型集中于語言和數值數據，難以理解雜亂無章、結構不定且不斷變化的真實物理世界，所以空間智能的發展存在重重挑戰。直到最近兩年生成式AI爆發，讓機器來理解三維物理世界的技術越發成熟， AI生成可交互3D場景作為一種新興的多模態任務，也被稱為“空間智能”的領域，甚至被稱為下一個AI創新重要節點，而不是Agent那樣的智能體工具。

AI大神李飛飛曾提到：“空間智能讓機器脫離數據中心，進入現實世界，理解豐富的三維、四維世界”，并總結為“I see，I move，I think，so I am”（我看、我動、我思，故我在），突出視覺、運動與認知的融合。

怎么理解呢？比如十年前AlphaZero學會圍棋不是靠對弈，而是靠在內部模擬數十億次對局。機器人也是一樣，有了世界模型，它就能在“腦中模擬”無數種走路、抓取、跳躍的方式，從而學會最優策略。

當然，AlphaZero成本高昂不具備復雜多目標的預測和模擬，變成了“好玩的工具”。但到了大模型時代，世界模型的軟硬件理論都在成熟。從過去一個點的模擬到現在整個場景的模擬不再是幻想。

想象一下，個人AI助手提前幫你規劃一天日程并預測可能麻煩；智能穿戴設備預測你的健康風險并主動干預；無人車不僅能開得安全，還能主動規避情緒激動的人。

一旦有了世界模型，AI就不只是“看到什么做什么”，而是可以在內部模擬不同路徑的后果（比如機器人該走樓梯還是乘電梯？）；可以進行計劃和策略調整（比如機器人先拿抹布再去打掃）；可以進行跨模態融合推理（聲音+圖像+歷史數據建模）；這就類似于人類的“想象力+規劃能力”，真正體現了具身智能的高級階段。

來自谷歌DeepMind的頂尖研究團隊25年6月發表了一篇具有里程碑意義的論文，題為《通用智能體需要世界模型》。該研究通過嚴謹的數學證明，首次從理論上確立了一個核心論斷：任何能夠靈活適應并完成多步、復雜任務的通用人工智能（AI）體，其內部必然已經學習并編碼了一個關于其環境的預測模型——即“世界模型”（World Model）。

這意味著，學習一個精確的世界模型，不是一個可選項，而是成為通用智能體的“必要條件”。AI的能力上限，被其內部世界模型的保真度牢牢鎖定。

所以AI競爭的下一個大方向，就是世界模型或者空間智能，真正懂AI其實已經早有布局了。

今年1月7日，黃仁勛在2025年拉斯維加斯消費電子展（CES）上宣布，推出Cosmos世界模型（Cosmos World Foundation Models，簡稱Cosmos WFMs），該模型專為理解物理世界打造，可預測和生成“物理感知”的視頻。

實際上，除了英偉達，谷歌以及不少初創企業也在追逐世界模型，谷歌旗下DeepMind組建世界模型研究團隊，聘請Sora核心人員Tim Brooks掌舵。此外，“AI教母”李飛飛的World Labs、初創公司Decart、 Odyssey也都涉足其中。

8月5日Google DeepMind發布的Genie 3帶來了新的技術想象力，而是直接生成一個可交互的3D世界。

對比 Genie 1 和 Genie 2，這次 Google DeepMind 團隊實現了一次關鍵的升級，從「生成可互動視頻」變成了「實時生成可互動世界」。

Genie 3 的升級除了「可漫游」這一方面，它的強大之處主要體現在以下幾點。實時交互性：Genie 3 生成的世界不是預先渲染好的視頻。它能以 720p 分辨率和 24fps 的幀率實時運行，讓我們像玩游戲一樣在其中自由移動。更長的持續性和一致性：這是最令人驚艷的升級。相比前代模型十幾秒的互動時間，Genie 3 將這個時長提升到了「幾分鐘」。更重要的是，它擁有長達一分鐘的視覺記憶。

Genie 3雖然還不夠長，用于生產力工作稍顯不足，但以及證明了生產互動性世界是可以的，實現了1的開始還怕后面沒有0嗎？

其實不管是對互聯網企業來說，還是個人用戶，都可以通過空間智能3D模型，來用于游戲、視頻制作、3D動畫等，將會創造完全不同于以往的體驗，對于影音娛樂的革命或許就在眼下。

騰訊AI在下什么大棋

過去大家對騰訊的印象是喜歡“后發制人”在科技創新上略顯保守，但今年以來這個評價或許不那么合適了。

今年3月19日，騰訊發布新一季財報。2024年，騰訊在AI戰略推動下，全年資本開支達到767億元，同比增長 221%，創下歷史新高。財報電話會上，騰訊總裁劉熾平表示：“我們計劃在2025年進一步加大資本支出，預計資本支出將占收入的十幾個百分點。”

卷基礎技術騰訊也是認真的。基礎模型方面，騰訊的混元大模型體系已形成完整梯隊。最新開源的0.5B-7B小模型與之前52B的Hunyuan large、MoE架構的Hunyuan-A13B共同構成從端側到云端的覆蓋。

今年上半年混元TurboS理科推理提升超10%，代碼能力提升24%，競賽數學成績大幅提升了39%。在全球公認的權威大語言模型評測平臺Chatbot Arena上，混元TurboS排名已攀升至全球前八，與OpenAI GPT、谷歌Gemini、xAI 的Grok 等最領先大模型共同上榜，國內僅次于DeepSeek。

除了力推自家元寶之外，騰訊還是展現了以往以來的開放合作的胸懷，愿意成為行業基礎設施，為中小開發者創業者搭建基礎平臺。

在智能體開發層面，將大模型知識引擎全面升級為“騰訊云智能體開發平臺”，升級后的平臺，整合了騰訊云行業領先的RAG（檢索增強生成）技術、全面的 Agent（智能體）能力以及實戰打磨出來的貼合用戶需求的功能，幫助企業快速激活私域知識、構建專屬智能體。

從企業角度來看，眼下，企業知識庫落地痛點很大，大量的內部文檔、數據、經驗等知識散落各處，亟待整合利用，而 AI 技術恰好能對這些知識進行高效收集、精準分類與智能檢索。基于這一判斷，今年上半年，騰訊內部的知識庫產品升級速度大大加快，騰訊樂享全面升級為樂享知識庫，提供企業級的知識管理方案。

后來科沃斯將產品手冊、故障代碼庫、用戶常見問題等導入騰訊樂享知識庫，利用 AI 分類技術自動打標簽、關聯相似問題，員工和客服可通過搜索快速定位答案。科沃斯整體營銷效率大大提升，人效兩位數提升，每年可以省下百萬的運營成本。只有這樣真實的幫助企業“降本增效”，才能吸引更多企業參與生態建設，而不是挾持企業加入自家生態。

可以說騰訊已經找到了自己的節奏，基礎模型研發和產品應用，兩手都要硬。在C端，發揮優勢打造AI原生的產品，力爭跑出爆款，在B端，延續健康可持續的策略，不盲目跟風，貼合場景做落地。

寫在最后

AI的下一個競爭焦點，正在轉向世界模型或者空間模型，這沒有問題，但距離真正的預測和自主生成決策感知空間的能力，還非常遙遠。所以眼下要做或許不是各種激進落地，而是統一行業3D數據收集標準打好基礎，以及模型架構創新把算力成本降下來才有大規模商業化可能。

參考資料：

谷歌Genie 3讓你秒變造物主來源：Appso

騰訊AI加速狂飆這半年來源：雷峰網

AI下一個必爭之地來源：華爾街見聞

大模型潛力在空間智能來源：騰訊研究院

騰訊混元發布即開源來源：CSDN

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.