網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球首個(gè)具身智能開放平臺(tái)來(lái)了！讓大模型長(zhǎng)出“身體”

2025-10-30 11:15:38　來(lái)源: 量子位

新加坡舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

具身智能賽道的想象力，遠(yuǎn)比眼前的機(jī)器人要遼闊。

當(dāng)大家還在琢磨怎么把大模型塞進(jìn)機(jī)器人里時(shí)，數(shù)字人也和具身智能關(guān)聯(lián)上了。

就在今天，魔琺科技發(fā)布了面向開發(fā)者的具身智能基礎(chǔ)設(shè)施——「魔琺星云」具身智能3D數(shù)字人開放平臺(tái)

這也是全球首個(gè)。

在魔琺星云的驅(qū)動(dòng)下，不僅大語(yǔ)言模型能夠“長(zhǎng)出身體”，實(shí)體機(jī)器人也能像人一樣擁有動(dòng)作、表情，實(shí)現(xiàn)自然表達(dá)。

憑借低于1.5秒的端到端延遲、千萬(wàn)級(jí)并發(fā)能力，以及百元級(jí)算力即可運(yùn)行的架構(gòu)，人機(jī)對(duì)話幾乎就像朋友面對(duì)面聊天一樣自然。

這是怎么做到的？

魔琺星云：讓AI擁有身體的開發(fā)者平臺(tái)

魔琺星云魔琺科技推出的面向開發(fā)者的具身智能3D數(shù)字人開放平臺(tái)。

它可以根據(jù)文本，實(shí)時(shí)生成3D數(shù)字人的語(yǔ)音、表情、眼神、手勢(shì)和身體動(dòng)作，讓任何屏幕、應(yīng)用、終端都實(shí)現(xiàn)自然、流暢的多模態(tài)交互。

魔琺星云主要驅(qū)動(dòng)3D具身數(shù)字人的三大應(yīng)用方向。

首先，魔琺星云可以為大模型和AI智能體提供身體和表達(dá)能力，讓原本只能文字交流的模型，通過(guò)語(yǔ)音、表情和動(dòng)作與人類進(jìn)行自然互動(dòng)。

其次，它可以讓手機(jī)、平板、電視、車載屏幕等各種終端升級(jí)為具身智能界面，讓每一塊屏幕都能“能說(shuō)、會(huì)動(dòng)”，從被動(dòng)的信息載體轉(zhuǎn)變?yōu)橹鲃?dòng)的服務(wù)者或信息提供者。

最后，魔琺星云還能驅(qū)動(dòng)人形機(jī)器人實(shí)現(xiàn)自然溝通

它可以在虛擬端生成關(guān)節(jié)級(jí)運(yùn)動(dòng)（運(yùn)動(dòng)學(xué)軌跡），通過(guò)仿真+模仿/強(qiáng)化學(xué)習(xí)映射到機(jī)器人（動(dòng)力學(xué)控制）。

這樣，機(jī)器人不僅能行走、操作，還能通過(guò)語(yǔ)音、眼神、手勢(shì)等自然方式與人交流，實(shí)現(xiàn)講解、導(dǎo)覽、交互問(wèn)答等功能。

由此，魔琺星云超越了普通的內(nèi)容生成工具，成為了讓大模型“有身體”的底層基建。

在具體的應(yīng)用場(chǎng)景中，它能在酒店、政務(wù)大廳、展館等場(chǎng)景上崗，勝任接待、導(dǎo)辦、講解工作。

無(wú)論是作為大屏互動(dòng)窗口，還是化身為接待機(jī)器人，數(shù)字人都能做到7×24小時(shí)在線待命，提供始終如一的親切服務(wù)。

在一些更細(xì)分的場(chǎng)景中——比如AI面試、線上培訓(xùn)等——數(shù)字人也突破了傳統(tǒng)的文本對(duì)話形式，讓用戶能夠與一個(gè)“有溫度”的具身形象進(jìn)行自然互動(dòng)。

對(duì)于個(gè)體開發(fā)者，魔琺星云也支持SDK或API部署調(diào)用，開發(fā)者可根據(jù)實(shí)際需要將魔琺星云能力嵌入任何終端——屏幕、機(jī)器人、App……

例如，開發(fā)者可以打造有形象、有表情、能對(duì)話的AI伙伴，或者通過(guò)SDK/API接入網(wǎng)頁(yè)、小程序或App，生成有形象的具身數(shù)字人助手。

可以說(shuō)，魔琺星云平臺(tái)的發(fā)布志在將計(jì)算機(jī)圖形界面轉(zhuǎn)化成有形象、能交流、能辦事、能陪伴的具身智能體，讓屏幕活起來(lái)！

而魔琺星云的落地實(shí)現(xiàn)，離不開魔琺的核心優(yōu)勢(shì)。

突破“高質(zhì)量、低延遲、高并發(fā)/低成本”的不可能三角

當(dāng)前，數(shù)字人的規(guī)模化商業(yè)落地面臨多重挑戰(zhàn)。

首先是體驗(yàn)是否過(guò)關(guān)——數(shù)字人的形象、表情、動(dòng)作、唇形與聲音是否自然，能否傳遞“人在場(chǎng)”的感受。

其次是響應(yīng)速度——用戶輸入后系統(tǒng)能否快速反饋。在此基礎(chǔ)上，還需要兼顧成本可控規(guī)模化部署多終端適配能力。

針對(duì)這些挑戰(zhàn)，現(xiàn)有技術(shù)方案各有側(cè)重，形成了典型的不可能三角

兼顧高畫質(zhì)與低延遲，需要大量算力投入，成本難以控制且難以規(guī)模化；兼顧高并發(fā)與低成本，則難以保證畫質(zhì)；兼顧高質(zhì)量與高并發(fā)，又無(wú)法實(shí)現(xiàn)實(shí)時(shí)交互。

而魔琺星云的推出，正是對(duì)這一不可能三角的首次突破。

魔琺科技以自研的文生多模態(tài)3D大模型為核心，將語(yǔ)義、語(yǔ)音、表情、動(dòng)作納入統(tǒng)一生成體系，多模態(tài)統(tǒng)一驅(qū)動(dòng)，實(shí)現(xiàn)語(yǔ)音、表情與動(dòng)作的自然同步與情感協(xié)調(diào)。

更關(guān)鍵的是，圍繞模型，魔琺星云還設(shè)計(jì)了創(chuàng)新的云-端拆分架構(gòu)

云端僅生成語(yǔ)音和動(dòng)作參數(shù)，端側(cè)AI直接渲染畫面，無(wú)需傳統(tǒng)引擎與GPU支持，就能使帶寬更小、延遲更低、算力更省。

也正因這一架構(gòu)，魔琺星云不僅可以在RK3566、3588等百元級(jí)芯片上流暢運(yùn)行，還適配國(guó)產(chǎn)信創(chuàng)芯片，讓數(shù)字人真正跑在各種系統(tǒng)、終端，甚至中低端設(shè)備上，讓具身智能從實(shí)驗(yàn)室走向隨處可用。

此外，魔琺星云還有一個(gè)很強(qiáng)的底子：

團(tuán)隊(duì)從2018年開始為游戲、影視、動(dòng)畫公司制作3D內(nèi)容，到后來(lái)自己積累動(dòng)畫數(shù)據(jù)，目前已有數(shù)千小時(shí)的高質(zhì)量3D動(dòng)畫資產(chǎn)。

在一個(gè)“高質(zhì)量每秒成本上千元”的領(lǐng)域，這樣的數(shù)據(jù)體量不僅稀缺，更是支撐大模型表現(xiàn)力的關(guān)鍵。

過(guò)去兩年，魔琺也在持續(xù)推進(jìn)“3D+AI”的融合落地——推出視頻工具有言、直播產(chǎn)品有光、交互產(chǎn)品有靈，把魔琺星云的技術(shù)能力不斷轉(zhuǎn)化為具體應(yīng)用。

魔琺星云的推出則進(jìn)一步印證了魔琺從項(xiàng)目到產(chǎn)品再到平臺(tái)的轉(zhuǎn)變——

將3D數(shù)字人能力全面開放，讓開發(fā)者和企業(yè)都能快速構(gòu)建具有人類表達(dá)力的具身智能體。

此外，為了推動(dòng)不同場(chǎng)景的驅(qū)動(dòng)落地，魔琺科技創(chuàng)始人、CEO柴金祥教授表示：

魔琺具備完整的感知、理解、行動(dòng)三層能力。對(duì)于已有大模型的客戶，魔琺星云提供驅(qū)動(dòng)與人形智能模塊，實(shí)現(xiàn)模型具身化；對(duì)于沒(méi)有大模型的客戶，則提供從模型到驅(qū)動(dòng)的一體化解決方案；在線下大屏，對(duì)于沒(méi)有感知能力的客戶，則提供視覺(jué)和語(yǔ)音識(shí)別能力；非開發(fā)者用戶也可通過(guò)“有靈”調(diào)用公司模型或第三方通用模型。

目前，魔琺星云平臺(tái)已全面開放給開發(fā)者使用。用戶可以通過(guò)SDKAPI接入，實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)、語(yǔ)音合成、視頻生成等具身智能能力。

屏幕上的具身智能體

長(zhǎng)期以來(lái)，魔琺科技一直被視為數(shù)字人領(lǐng)域的頭號(hào)玩家，但這次新發(fā)布的魔琺星云并非單純的數(shù)字人/視頻生成平臺(tái) 。

一方面，與傳統(tǒng)的數(shù)字人平臺(tái)不同，魔琺星云不是在“合成一段表演”，而是在“驅(qū)動(dòng)互動(dòng)”。

傳統(tǒng)平臺(tái)多基于2D拼貼、口型合成與預(yù)錄動(dòng)作回放，動(dòng)作有限、響應(yīng)滯后，也缺乏多模態(tài)理解。

而魔琺星云基于3D多模態(tài)生成模型，可同時(shí)生成語(yǔ)音、表情與動(dòng)作，使AI的交流具備“眼神、節(jié)奏與身體語(yǔ)言”的層次感。

另一方面，與Sora等視頻生成模型不同，魔琺星云的目標(biāo)不是生成影像，而是驅(qū)動(dòng)存在

Sora可以生成逼真的視頻，但輸出不可控、延遲高、成本重——更適合做內(nèi)容，不適合做交互。

魔琺星云則以低于1.5秒的端到端延遲百元級(jí)算力的輕量架構(gòu)，實(shí)現(xiàn)了語(yǔ)義、語(yǔ)音、動(dòng)作一體化的實(shí)時(shí)驅(qū)動(dòng)，讓AI能隨語(yǔ)義實(shí)時(shí)反應(yīng)。

可以說(shuō)，Sora讓AI“看起來(lái)像人”，傳統(tǒng)數(shù)字人讓AI“聽起來(lái)像人”，魔琺星云則讓AI“像人一樣回應(yīng)，表現(xiàn)”。

而這一標(biāo)志性的區(qū)別，正源于魔琺星云此次的獨(dú)特定位——具身智能3D數(shù)字人

簡(jiǎn)單來(lái)說(shuō)，具身智能3D數(shù)字人就是將數(shù)字人的能力（有形象、會(huì)表達(dá)）與大模型的能力（有大腦、能辦事）深度融合。

這里的具身智能體（Embodied Agent）與傳統(tǒng)強(qiáng)調(diào)AI進(jìn)入物理世界、具備感知和行動(dòng)能力的具身智能（Embodied AI）不同，更側(cè)重人機(jī)交互（HCI）和多模態(tài)AI。

從最早的紙帶機(jī)、終端命令、圖形界面，再到大模型的文本輸入框，交互界面始終缺乏一個(gè)“活的身體”。

具身智能體的提出則在于讓“身體能力平臺(tái)化”，讓任何屏幕、界面、應(yīng)用都能擁有身體，從而在具體場(chǎng)景中以自然方式進(jìn)行交互和服務(wù)

在這里，“身體”不一定是機(jī)械的，而是可感知、可體驗(yàn)的身體界面。

例如：屏幕上的3D數(shù)字人、手機(jī)里的虛擬助手、車載屏幕里的AI副駕、接入機(jī)器人后的動(dòng)作與表情驅(qū)動(dòng)系統(tǒng)。

這些智能體有表情、有語(yǔ)氣、有手勢(shì)——即便身體只存在于屏幕上，也能被人類感知為“一個(gè)在場(chǎng)的智能體”。

相比傳統(tǒng)只能輸出文字或語(yǔ)音的AI，魔琺星云賦予AI更豐富的表現(xiàn)力和自然的交互體驗(yàn)。

想象一下：如果AI健身教練只能通過(guò)文字或語(yǔ)音指導(dǎo)，而無(wú)法用身體演示動(dòng)作；如果英語(yǔ)陪練沒(méi)有形象，只能讓你對(duì)著空氣開口說(shuō)話——交互體驗(yàn)必然會(huì)大打折扣。

具身化正是為了解決這個(gè)問(wèn)題：讓終端、應(yīng)用或智能體以人的方式表達(dá)——通過(guò)表情傳遞情緒，通過(guò)聲音和語(yǔ)氣溝通，通過(guò)動(dòng)作和形象建立存在感。

只有這樣，交互才能可信，才能規(guī)模化，才能真正走入社會(huì)。

正如柴金祥教授所說(shuō)：

魔琺星云的使命，就是補(bǔ)?AI最后一塊拼圖?讓每一塊屏幕、每一個(gè)界面、每一個(gè)終端、每一臺(tái)人形機(jī)器人，都真正“活”起來(lái)。

此外，從“腦到身”的視角看，AI的發(fā)展也可視為具身發(fā)展的演進(jìn)路線。

文字AI（ChatGPT）：只有語(yǔ)言，沒(méi)有身體→無(wú)具身
語(yǔ)音助手（Siri等）：有聲音，可聽不可見(jiàn)→半具身
數(shù)字人（屏幕）：有聲音、有表情、有動(dòng)作，可感交流→虛擬具身
機(jī)器人：有物理身體，可作用世界→真實(shí)具身

魔琺星云正是貫通了虛擬具身和真實(shí)具身，既能驅(qū)動(dòng)虛擬3D數(shù)字人的動(dòng)作、表情和語(yǔ)音，也能驅(qū)動(dòng)人形機(jī)器人的關(guān)節(jié)動(dòng)作、面部表情和手勢(shì)。

正因如此，魔琺星云彌合了虛擬世界的大模型“有腦卻無(wú)身”，缺乏情緒、動(dòng)作和表現(xiàn)力，現(xiàn)實(shí)世界的人形機(jī)器人“有身卻無(wú)魂”，能動(dòng)卻不會(huì)交流的鴻溝。

從這個(gè)意義上說(shuō)，魔琺星云并不只是一個(gè)數(shù)字人平臺(tái)，而是一次對(duì)“具身智能”概念的重新審視。

就像柴金祥教授提到的：

身體是多面向的——既用于感知、日常活動(dòng)與勞動(dòng)，也可用于娛樂(lè)、陪伴與溝通。

我們當(dāng)前對(duì)機(jī)器人勞動(dòng)的關(guān)注，忽略了身體在人機(jī)交互與情感表達(dá)中的關(guān)鍵作用。

而魔琺星云的發(fā)布也提醒我們，具身智能的定義與其現(xiàn)有技術(shù)一樣，談收斂，還為時(shí)尚早。

體驗(yàn)網(wǎng)址：https://xingyun3d.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.