![]()
混元3D模型有什么不同
2018年電影《頭號玩家》橫空出世,一個完全虛擬但又有較為真實體驗的世界,拉開了元宇宙世界的序幕,依靠VR設備就能創造一個嶄新的世界過去被視作科幻想象。但在今天這一切也許有了可能。
騰訊混元世界3D模型,讓我們看到了探索這種未來可能性,低成本人人可以參與創造,虛擬且真實的世界正在到來。
在 2025 世界人工智能大會騰訊論壇上,騰訊正式發布并開源其全新「混元 3D 世界模型 1.0」,該模型不僅支持通過文本或圖像生成完整 3D 場景,還具備 360° 沉浸式漫游、資產導出為標準 mesh 格式、支持主流建模軟件編輯等功能,真正實現從“AI 能畫”到“人能用”的躍遷。
在生成式 AI 重塑 3D 內容創作流程的浪潮中,一場場技術革新正悄然改變游戲、美術、影視等產業的生產底座。作為最受歡迎的 3D 開源模型之一,混元 3D 模型在Hugging Face 平臺下載量已超過 230 萬,廣受全球開發者認可。
年初的時候騰訊就已經發布過了自己的3D模型,但彼時模型還不夠成熟,只能生成單一物體互動性較弱。在今年 4 月的 2025 全球機器學習技術大會上,騰訊混元 3D 項目負責人郭春超接受 CSDN 專訪時就提到:騰訊混元 3D 系列模型正從“重建一個物體”到“生成一個場景”,再到“理解一個世界” 邁進,他們希望生成的不只是一個‘看起來像’的模型,而是一個創作者可以直接使用的可交付資產。
![]()
這次更新的空間模型能力堪稱炸裂。騰訊混元團隊也從定量角度評估混元世界模型 1.0 性能,針對 360° 全景與 3D 場景生成能力,與開源或者開放接口工作進行了對比,包括紋理細節、美學質量、指令遵循等評價維度,結果顯示,混元世界模型 1.0 在生成質量上全面超過了 SOTA 開源模型。
與此同時,騰訊混元還宣布了一系列后續開源計劃,包括多模態理解模型、游戲視覺模型,以及適用于邊緣設備的端側大語言模型(0.5B、1.8B、4B、7B),覆蓋從 3D 世界生成到小模型部署的完整生態鏈條。這一次,騰訊不僅把 3D 內容生成從「生成一個物體」升級到「生成一個世界」,還希望以開源的方式,撬動整個3D AIGC 創作生態。
那么從普通用戶可感知的角度這事有什么可聊的呢?
混元模型可基于一句文本描述或一張圖像輸入,生成一個 360 度沉浸式的三維場景。例如,你只需輸入「一個破舊的加油站,夜晚下著雨,遠處有霓虹燈」,它就能構建出加油站主體、環境、天空光照、閃電等元素構成的完整空間。
除了能看,還能動。混元世界模型支持構建“可行走”的場景地圖。生成的世界不僅是封閉空間和固定視角,也支持在場景中自由漫游,體驗類似游戲或虛擬現實的交互感。“可行走”過去很多空間模型也展示過,但是多數存在視角丟失,缺少空間感連續性,更不要說拿來做連續項目開發了。
為此騰訊選擇了大膽創新,不完全采用3D方式來構建。純 3D 生成:優點是空間結構穩定,但受限于高質量 3D 數據的稀缺,生成的多樣性和創造力不足。
純 2D 視頻生成(如 Google 基礎世界模型 Genie):優點是交互和動態效果豐富,但缺乏三維空間的穩定性約束。你往前走再回頭,場景可能已經「面目全非」,無法構建一個邏輯自洽的世界。騰訊混元團隊選擇了一條更聰明、也更復雜的「2D+3D 結合」的混合路線,取長補短。
對于游戲開發者而言,這是前所未有的生產力革命。 傳統的游戲場景搭建,需要建模師耗費數周甚至數月的時間手動完成。現在,只需一句指令,就能快速生成一個高質量的場景原型,用于前期的玩法驗證。這能極大地縮短開發周期,降低試錯成本。同時,模型生成的各種道具、建筑也能作為基礎素材,大大提升資產生產效率。對于普通 3D 愛好者和內容創作者,它則徹底拉低了創作的門檻。 你不需要懂復雜的三維建模軟件,也能創造屬于自己的虛擬世界,并將其導入到 Vision Pro 等設備中沉浸式體驗。
那么是不是一個全新的空間智能時代就此來臨?倒也不必這么樂觀。目前的空間模型還處在相對初級的階段,約束條件較多,仿真數據只能解決部分問題,在當前的大模型框架下,想要真正創造復雜動態多變的“世界”,還是有些科幻的。
空間智能戰爭打響
談到空間智能就不能不談世界模型,模型對空間的準確理解和構建是基礎,但世界模型相對更復雜一些,會加入一些物理推理、因果推理等更維的約束,具備預測生成能力可以參與復雜決策系統。所以看上去空間智能模型更像是世界模型的前一階段,具有一定子集性質。
但從實踐上,空間智能模型,也會具有一些物理推理,比如騰訊的混元3D模型,也具備生成一個世界的能力,也可以說是一個基礎世界模型。
“世界模型”被業內吹捧為是AI領域的下一個關鍵突破,那么“世界模型”到底指的是什么?它的重要之處在于哪里?
過去AI視頻經常被人吐槽的是空間錯亂不懂物理規則,比如大象跟老鼠一樣重,三只手的人,懸浮的公路,汽車可以像幽靈一樣穿過另一輛車等等。
因此傳統AI模型集中于語言和數值數據,難以理解雜亂無章、結構不定且不斷變化的真實物理世界,所以空間智能的發展存在重重挑戰。直到最近兩年生成式AI爆發,讓機器來理解三維物理世界的技術越發成熟, AI生成可交互3D場景作為一種新興的多模態任務,也被稱為“空間智能”的領域,甚至被稱為下一個AI創新重要節點,而不是Agent那樣的智能體工具。
AI大神李飛飛曾提到:“空間智能讓機器脫離數據中心,進入現實世界,理解豐富的三維、四維世界”,并總結為“I see,I move,I think,so I am”(我看、我動、我思,故我在),突出視覺、運動與認知的融合。
怎么理解呢?比如十年前AlphaZero學會圍棋不是靠對弈,而是靠在內部模擬數十億次對局。機器人也是一樣,有了世界模型,它就能在“腦中模擬”無數種走路、抓取、跳躍的方式,從而學會最優策略。
當然,AlphaZero成本高昂不具備復雜多目標的預測和模擬,變成了“好玩的工具”。但到了大模型時代,世界模型的軟硬件理論都在成熟。從過去一個點的模擬到現在整個場景的模擬不再是幻想。
想象一下,個人AI助手提前幫你規劃一天日程并預測可能麻煩; 智能穿戴設備預測你的健康風險并主動干預;無人車不僅能開得安全,還能主動規避情緒激動的人。
一旦有了世界模型,AI就不只是“看到什么做什么”,而是可以在內部模擬不同路徑的后果(比如機器人該走樓梯還是乘電梯?);可以進行計劃和策略調整(比如機器人先拿抹布再去打掃);可以進行跨模態融合推理(聲音+圖像+歷史數據建模);這就類似于人類的“想象力+規劃能力”,真正體現了具身智能的高級階段。
來自谷歌DeepMind的頂尖研究團隊25年6月發表了一篇具有里程碑意義的論文,題為《通用智能體需要世界模型》。該研究通過嚴謹的數學證明,首次從理論上確立了一個核心論斷:任何能夠靈活適應并完成多步、復雜任務的通用人工智能(AI)體,其內部必然已經學習并編碼了一個關于其環境的預測模型——即“世界模型”(World Model)。
這意味著,學習一個精確的世界模型,不是一個可選項,而是成為通用智能體的“必要條件”。AI的能力上限,被其內部世界模型的保真度牢牢鎖定。
所以AI競爭的下一個大方向,就是世界模型或者空間智能,真正懂AI其實已經早有布局了。
今年1月7日,黃仁勛在2025年拉斯維加斯消費電子展(CES)上宣布,推出Cosmos世界模型(Cosmos World Foundation Models,簡稱Cosmos WFMs),該模型專為理解物理世界打造,可預測和生成“物理感知”的視頻。
實際上,除了英偉達,谷歌以及不少初創企業也在追逐世界模型,谷歌旗下DeepMind組建世界模型研究團隊,聘請Sora核心人員Tim Brooks掌舵。此外,“AI教母”李飛飛的World Labs、初創公司Decart、 Odyssey也都涉足其中。
8月5日Google DeepMind發布的Genie 3帶來了新的技術想象力,而是直接生成一個可交互的3D世界。
![]()
對比 Genie 1 和 Genie 2,這次 Google DeepMind 團隊實現了一次關鍵的升級,從「生成可互動視頻」變成了「實時生成可互動世界」。
Genie 3 的升級除了「可漫游」這一方面,它的強大之處主要體現在以下幾點。實時交互性:Genie 3 生成的世界不是預先渲染好的視頻。它能以 720p 分辨率和 24fps 的幀率實時運行,讓我們像玩游戲一樣在其中自由移動。更長的持續性和一致性:這是最令人驚艷的升級。相比前代模型十幾秒的互動時間,Genie 3 將這個時長提升到了「幾分鐘」。更重要的是,它擁有長達一分鐘的視覺記憶。
![]()
Genie 3雖然還不夠長,用于生產力工作稍顯不足,但以及證明了生產互動性世界是可以的,實現了1的開始還怕后面沒有0嗎?
其實不管是對互聯網企業來說,還是個人用戶,都可以通過空間智能3D模型,來用于游戲、視頻制作、3D動畫等,將會創造完全不同于以往的體驗,對于影音娛樂的革命或許就在眼下。
騰訊AI在下什么大棋
過去大家對騰訊的印象是喜歡“后發制人”在科技創新上略顯保守,但今年以來這個評價或許不那么合適了。
今年3月19日,騰訊發布新一季財報。2024年,騰訊在AI戰略推動下,全年資本開支達到767億元,同比增長 221%,創下歷史新高。財報電話會上,騰訊總裁劉熾平表示:“我們計劃在2025年進一步加大資本支出,預計資本支出將占收入的十幾個百分點。”
卷基礎技術騰訊也是認真的。基礎模型方面,騰訊的混元大模型體系已形成完整梯隊。最新開源的0.5B-7B小模型 與之前52B的Hunyuan large、MoE架構的Hunyuan-A13B共同構成從端側到云端的覆蓋。
今年上半年混元TurboS理科推理提升超10%,代碼能力提升24%,競賽數學成績大幅提升了39%。在全球公認的權威大語言模型評測平臺Chatbot Arena上,混元TurboS排名已攀升至全球前八,與OpenAI GPT、谷歌Gemini、xAI 的Grok 等最領先大模型共同上榜,國內僅次于DeepSeek。
除了力推自家元寶之外,騰訊還是展現了以往以來的開放合作的胸懷,愿意成為行業基礎設施,為中小開發者創業者搭建基礎平臺。
![]()
在智能體開發層面,將大模型知識引擎全面升級為“騰訊云智能體開發平臺”,升級后的平臺,整合了騰訊云行業領先的RAG(檢索增強生成)技術、全面的 Agent(智能體)能力以及實戰打磨出來的貼合用戶需求的功能,幫助企業快速激活私域知識、構建專屬智能體。
從企業角度來看,眼下,企業知識庫落地痛點很大,大量的內部文檔、數據、經驗等知識散落各處,亟待整合利用,而 AI 技術恰好能對這些知識進行高效收集、精準分類與智能檢索。基于這一判斷,今年上半年,騰訊內部的知識庫產品升級速度大大加快,騰訊樂享全面升級為樂享知識庫,提供企業級的知識管理方案。
后來科沃斯將產品手冊、故障代碼庫、用戶常見問題等導入騰訊樂享知識庫,利用 AI 分類技術自動打標簽、關聯相似問題,員工和客服可通過搜索快速定位答案。科沃斯整體營銷效率大大提升,人效兩位數提升,每年可以省下百萬的運營成本。只有這樣真實的幫助企業“降本增效”,才能吸引更多企業參與生態建設,而不是挾持企業加入自家生態。
可以說騰訊已經找到了自己的節奏,基礎模型研發和產品應用,兩手都要硬。在C端,發揮優勢打造AI原生的產品,力爭跑出爆款,在B端,延續健康可持續的策略,不盲目跟風,貼合場景做落地。
寫在最后
AI的下一個競爭焦點,正在轉向世界模型或者空間模型,這沒有問題,但距離真正的預測和自主生成決策感知空間的能力,還非常遙遠。所以眼下要做或許不是各種激進落地,而是統一行業3D數據收集標準打好基礎,以及模型架構創新把算力成本降下來才有大規模商業化可能。
參考資料:
谷歌Genie 3讓你秒變造物主 來源:Appso
騰訊AI加速狂飆這半年 來源:雷峰網
AI下一個必爭之地 來源:華爾街見聞
大模型潛力在空間智能 來源:騰訊研究院
騰訊混元發布即開源 來源:CSDN
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.