![]()
機(jī)器之心原創(chuàng)
編輯:杜偉
視頻生成快速演進(jìn)的腳步仍未停歇,就在今天,昆侖萬維的新動(dòng)作又一次突破行業(yè)想象。
上個(gè)月,AI 視頻賽道風(fēng)起云涌,業(yè)界資深玩家紛紛拋下「重磅炸彈」。國外 OpenAI 祭出 Sora 2、馬斯克 xAI 推出 Imagine v0.9、谷歌更新 Veo 3.1,國內(nèi)生數(shù)科技推出 Vidu Q2、MiniMax 發(fā)布海螺 2.3,這些新模型無一不在質(zhì)量、速度、時(shí)長等方面下足了功夫,音畫同步、20 秒時(shí)長等亮點(diǎn)功能對于創(chuàng)作者來說已經(jīng)波瀾不驚了。
相較于國外同行,很多國內(nèi)玩家還有一個(gè)明顯的不同:不滿足于只做 AI 視頻產(chǎn)品,也傾向于實(shí)現(xiàn)覆蓋圖像、音視頻、數(shù)字人、Agent 等全模態(tài)的全鏈路創(chuàng)作,通過模板化配置和流程化指引降低創(chuàng)作門檻,打造更宏大的內(nèi)容共創(chuàng)平臺(tái),突破 AI 視頻的應(yīng)用邊界。
這種「模型 + 平臺(tái)」并行演進(jìn)的模式更能加速 AI 視頻創(chuàng)作的普及,昆侖萬維剛剛官宣上線的全新 SkyReels 便是這一思路的集中體現(xiàn)。作為一個(gè)一站式、零門檻的多模態(tài) AI 視頻創(chuàng)作平臺(tái),SkyReels 為 AI 創(chuàng)作者帶來了更多的創(chuàng)意玩法。
此次全新 SkyReels 同步發(fā)布了多模態(tài)視頻生成模型 SkyReels V3,并對圖片、音頻和視頻參考等能力進(jìn)行全方位優(yōu)化。平臺(tái)本身還提供無限畫布、數(shù)字人口播、多模板生成與 Agent 等多種創(chuàng)作模式,供創(chuàng)作者使用。
我們先來欣賞一下官方 demo,AI 視頻生成的表現(xiàn)可謂是花樣百出、趣味性十足,比如多數(shù)字人。
在拿到全新 SkyReels 的內(nèi)測資格之后,我們馬上對它來了一波實(shí)測。
一手實(shí)測
AI 視頻生成被玩出花
在測試環(huán)節(jié),我們著重體驗(yàn)了 SkyReels 的畫布、Agent、視頻模板、數(shù)字人和視頻編輯等亮點(diǎn)功能。這個(gè)集多花樣玩法于一身的 AI 視頻生成平臺(tái)究竟能帶來哪些驚喜?我們接著往下看。
![]()
官網(wǎng)地址:https://www.skyreels.ai
無限畫布
SkyReels 本次的最大亮點(diǎn)之一,全部 AI 功能和多個(gè)全球頂尖 AI 模型都集成于同一個(gè)創(chuàng)作空間,一張無限畫布,它即是所有 AI 工具,也是圖片、視頻、音樂等多模態(tài)的融合載體。
在無限畫布上,你看到的每一個(gè)內(nèi)容,都是一個(gè)活的、可交互的積木 —— 所見即所得,效果實(shí)時(shí)呈現(xiàn)。
你可以在畫布上使用任何你想要的全球頂尖的模型,也可以使用任何你想要的 AI 創(chuàng)作功能,更可以添加任何素材到 Chat ,與「超級智能體」(Super Agent)一起完成創(chuàng)作。
整個(gè)創(chuàng)作工作是流動(dòng)的,比如讓靜態(tài)的中國名畫《清明上河圖》動(dòng)起來,只需要將原圖上傳到畫布,拖拽原圖到圖生視頻功能,即可在畫布生成視頻。
![]()
輸入的原圖
我們將圖片從畫布拖到 Video 功能模塊下,然后簡單輸入要求(讓圖中的人物動(dòng)起來),點(diǎn)擊生成就可以了:

短短幾秒,會(huì)動(dòng)的《清明上河圖》就完成了:
![]()
看到上面的《清明上河圖》視頻后,如果你也有一些靈感,想生成更具有年代感和寫實(shí)的《清明上河圖》,可隨時(shí)添加生成的視頻到 Chat,與「超級智能體」(Super Agent)對話,一起頭腦風(fēng)暴,激發(fā)更多靈感。

智能體就會(huì)從主題、設(shè)定、構(gòu)圖、色彩等多角度思考,生成另一個(gè)版本的《清明上河圖》:如下是生成陶土風(fēng)格的《清明上河圖》。同時(shí)利用AI 音頻功能為這個(gè)視頻配上古風(fēng)古韻的 BGM,并能精細(xì)地將視頻分辨率提升到 4K:
![]()
以上所有操作,都是在畫布上實(shí)現(xiàn)的。在無限的多模態(tài)畫布上,靈感不再沿著單一路徑生長,而是在多個(gè)空間中自由碰撞。每一個(gè)素材都可以被無限的連接與重組。圖片、視頻、音頻、文字在同一平面上實(shí)時(shí)互動(dòng),創(chuàng)意由此具備了空間感與生命力。昆侖萬維希望,用戶不必學(xué)習(xí)如何掌握 AI,只需自然地去使用它。而 AI 的使命,正是讓創(chuàng)作變得更自由、更高效、更簡單。
Agent
在前面的畫布中,我們已經(jīng)感受過 Super Agent(全能創(chuàng)意助手)的功能。此外,Agent 模塊還包括 Expert Agents,其覆蓋四大核心領(lǐng)域的專業(yè)團(tuán)隊(duì),當(dāng)你需要市場營銷策略、電子商務(wù)運(yùn)營、虛擬形象塑造或創(chuàng)意故事編寫時(shí),都能在 Agent 庫中找到對應(yīng)的專家,高效完成專業(yè)任務(wù)。
在 Super Agent 的對話框中,你可以自由輸入任何想法 —— 無論是生成圖片、分析視頻,還是進(jìn)行多模態(tài)創(chuàng)作,都能輕松實(shí)現(xiàn)。下面這張圖片,正是 Super Agent 根據(jù)提示自動(dòng)生成的結(jié)果。
![]()
An elegant necklace with an 18K yellow gold chain and a white gold pendant shaped like a detailed laurel leaf. The leaf is studded with small round diamonds resembling stars. The pendant's reverse side features a moon silhouette cutout. Displayed on a navy blue velvet neck form. Soft, diffused lighting, ultra-high definition product photography, 8K
如果你對這條項(xiàng)鏈有了新的靈感 —— 比如想看看模特佩戴后的效果,不妨試試 Expert Agents,系統(tǒng)內(nèi)置了 28 位行業(yè)專家,以專業(yè)視角和創(chuàng)意審美為你打造專屬造型方案。
![]()
這里我們選擇了「Virtual Styling Images」這個(gè) Expert Agent,它擅長將時(shí)尚單品轉(zhuǎn)化為風(fēng)格鮮明、極具視覺沖擊力的造型照片。然后給出簡單指令 —— 以暗黑風(fēng)格搭配這條項(xiàng)鏈。
Expert Agent 思考了一會(huì),然后輸出 6 張暗黑哥特風(fēng)格的虛擬試戴圖。

我們挑選了其中一張效果如下:從結(jié)果可以看出,系統(tǒng)自動(dòng)調(diào)整了光影與膚色匹配,使配飾與人物完美融合,毫無違和感。成品像是出自時(shí)尚大片現(xiàn)場,兼具視覺沖擊力與藝術(shù)構(gòu)成感。
![]()
如果你覺得僅看圖片還不過癮,可以將其轉(zhuǎn)換為視頻。只需選擇「Multi Script Avatar」,系統(tǒng)就能自動(dòng)為畫面生成帶語音解說的視頻。
值得一提的是,整個(gè)過程我們只是上傳了圖片、簡單輸入要求,視頻配音、字幕等都是智能體自動(dòng)生成的。過程如下:

最終效果:
這樣,一條項(xiàng)鏈從生成到最終展示,整個(gè)過程都一氣呵成。從靈感構(gòu)思到造型搭配,再到視頻呈現(xiàn),每一步都由智能 Agent 完成,幾乎無需人工干預(yù),就能獲得雜志級的成片效果。
在測試中,我們還發(fā)現(xiàn),用戶無需輸入復(fù)雜的提示詞,簡單描述一下要求,Agent 即可自動(dòng)執(zhí)行多步驟的復(fù)雜任務(wù),一鍵生成可直接交付的完整成果,而非零散的半成品。
而這,僅僅是一個(gè)開始。可以想象,不久的將來,這些 Agent 之間將不再是孤立的個(gè)體,而是能夠相互理解、主動(dòng)協(xié)作的智能網(wǎng)絡(luò)。屆時(shí),創(chuàng)作者只需提出一個(gè)想法,系統(tǒng)就能自動(dòng)組織一支虛擬團(tuán)隊(duì),從策劃到產(chǎn)出全流程閉環(huán)完成。
模版
SkyReels 模板庫迎來全面升級,現(xiàn)已收錄近 10 大類、150 余種專業(yè)模板,覆蓋從視覺設(shè)計(jì)到智能視頻生成的全流程創(chuàng)作需求。
無論是圖片生成還是視頻制作,用戶都能一鍵完成,從海報(bào)設(shè)計(jì)、電商服裝圖,到商品演示視頻、數(shù)字人口播講解等多種主流場景。
![]()
話不多說直接測試。我們上傳了一張隨手拍攝的圖片,畫面看起來平平無奇,沒有精致的布光,也沒有特別的構(gòu)圖。
但你別急,在 SkyReels 模板功能的處理下,這張普通的圖片瞬間「活」了起來。
![]()
模板庫預(yù)設(shè)了很多熱門設(shè)計(jì),選擇自己心儀的模板,上傳圖片點(diǎn)擊生成就可以了。
![]()
![]()
最后效果是這樣的:
測試下來,和原圖一對比,是不是檔次一下子就上來了?以后在做商品展示等任務(wù)上,原本普通的照片,在這些模版的加持下,整體質(zhì)感直接提升了好幾個(gè)層次。不需要專業(yè)攝影,也不需要繁瑣修圖,就能做出「英雄鏡頭」。
除了商品靜態(tài)展示上效果突出,模版功能還支持人物動(dòng)態(tài)視頻,我們就拿虛擬試衣來講吧,模板支持多件服飾(如上衣、褲子、帽子)同時(shí)試穿,這里我們上傳了帽子和裙子。

然后再加上一個(gè)在產(chǎn)品畫布中制作出的品牌 LOGO,選擇品牌廣告模板,就會(huì)得到這樣極富高級感的結(jié)果:
![]()
如果還想要更有故事感的廣告片,選擇創(chuàng)意剪輯模板,把剛用過的草帽圖片上傳就能一鍵將普通的草帽拍出大片感:
數(shù)字人
SkyReels 實(shí)現(xiàn)了全場景數(shù)字人對口型生成,同時(shí)支持單人數(shù)字人與單鏡頭多人多輪對話兩種模式,可生成最長 4 分鐘連續(xù)對口型視頻。
其中,單人數(shù)字人生成模型既支持單人的圖片驅(qū)動(dòng),也支持視頻驅(qū)動(dòng)。最多支持 32 種運(yùn)鏡組合與鏡頭運(yùn)動(dòng)選項(xiàng),可靈活適配不同敘事需求與畫面風(fēng)格,讓生成視頻更具鏡頭語言與電影質(zhì)感。
這里我們輸入一張圖片(或者上傳視頻都可以):
![]()
接下來,只需挑選一位配音員即可。SkyReels 內(nèi)置了豐富的配音資源庫,用戶可自由選擇配音員的語言、性別、年齡與音色風(fēng)格,輕松匹配不同場景與角色氣質(zhì)。如果你不想使用內(nèi)置的配音,也可以本地上傳配音。
最后,輸入你想讓數(shù)字播報(bào)的內(nèi)容,點(diǎn)擊生成就可以了。
播報(bào)內(nèi)容:Equipped with the latest Bluetooth 5.3 technology, SonicAir Pro delivers ultra-stable connections and crystal-clear audio with virtually zero delay. Whether you’re taking calls, listening to music.
在多人對口型模式下,用戶只需上傳一張包含多位人物的圖片,系統(tǒng)即可自動(dòng)識(shí)別并區(qū)分不同角色。
![]()
隨后,用戶可根據(jù)需要自定義角色編號(hào)(男為 Character 1,女為 Character 2),并為每個(gè)角色分別選擇配音員與輸入臺(tái)詞內(nèi)容。整個(gè)流程簡潔直觀,輕松實(shí)現(xiàn)多角色對話的精準(zhǔn)控制與個(gè)性化創(chuàng)作。
![]()
最后,點(diǎn)擊生成就可以了。
![]()
Character 1:Ladies and gentlemen, prepare to be amazed! Character 2:Because what you’re about to see will change everything! Character 1:It’s bold, it’s brilliant, it’s absolutely unforgettable! Character 2:And trust us—you won’t want to miss a single second!
這幾個(gè)示例測試下來,我們發(fā)現(xiàn) SkyReels 無論是單人口播、還是多人交流,模型都能準(zhǔn)確識(shí)別角色、平滑銜接語音節(jié)奏,生成的視頻對話自然流暢、幾乎無延遲感。同時(shí),在單人場景中,新增的 32 種運(yùn)鏡組合讓畫面表現(xiàn)更具層次與動(dòng)感。
這也意味著,SkyReels 的出現(xiàn)極大降低了多鏡頭拍攝與后期配音的制作成本。創(chuàng)作者只需輸入音頻或腳本,即可快速生成具備完整表演與鏡頭語言的視頻內(nèi)容。無論是影視級對話拍攝、電商雙人口播,還是游戲劇情素材創(chuàng)作,SkyReels 都能在保持高質(zhì)量表現(xiàn)的同時(shí),實(shí)現(xiàn)創(chuàng)意表達(dá)與制作效率的雙重提升。
視頻編輯
最后,我們測試了 SkyReels 的視頻編輯功能,特別是視頻延長和風(fēng)格化功能。
首先是視頻延長,這項(xiàng)能力要求智能預(yù)測下一個(gè)鏡頭的合理延續(xù)與場景內(nèi)容。SkyReels 支持了 Cut-In、Cut-Out、Reverse Shot、Multi-Angle 以及 Cut Away 等切鏡方式,生成的延展片段在敘事邏輯與視覺連貫性上高度一致,使畫面語言更豐富、更具層次感。

提示:the camera shifts to the back left, focusing on the arched building behind her, and zooms in
至于視頻風(fēng)格轉(zhuǎn)換,SkyReels 目前支持了剪紙、辛普森、鉤針毛線、樂高、動(dòng)森、像素、梵高等風(fēng)格。先來一個(gè)辛普森風(fēng)格:

再來一個(gè)鉤針毛線風(fēng)格:

總的來說,這番測試帶給我們的直觀感受是:無論是可玩性、互動(dòng)性,還是整體表現(xiàn)力,SkyReels 都超過了以往體驗(yàn)過的同類產(chǎn)品。并且,該平臺(tái)將 AI 視頻功能的延展性和創(chuàng)作自由度提升到了前所未有的新高度。
昆侖萬維還預(yù)告了更多「正在路上」的玩法,比如可 prompt 控制,通過自然語言精準(zhǔn)調(diào)度鏡頭、驅(qū)動(dòng)角色。從此以后,在 AI 視頻生成領(lǐng)域,工具不再是限制你發(fā)揮的最大因素,想象力才是。
多模態(tài)統(tǒng)一進(jìn)化
打通圖像、音頻與視頻邊界
全新 SkyReels 讓我們看到了一站式 AI 視頻創(chuàng)作平臺(tái)的各種新奇和實(shí)用玩法,生成的視頻在物理運(yùn)動(dòng)真實(shí)性、鏡頭連續(xù)一致性、聲音口型同步性和人物表情細(xì)膩度上不可同日而語,觀感上無限接近真實(shí)。
取得現(xiàn)在的效果,基礎(chǔ)模型 SkyReels V3 功不可沒。該系列模型基于同一個(gè)多模態(tài)上下文學(xué)習(xí)框架進(jìn)行預(yù)訓(xùn)練,并通過子任務(wù)精調(diào)實(shí)現(xiàn)了進(jìn)一步訓(xùn)練適配優(yōu)化
首先是基于多主體參考圖像的視頻生成,需要解決一系列挑戰(zhàn):多主體容易出現(xiàn)形變與身份漂移、背景元素在鏡頭運(yùn)動(dòng)或場景切換中常出現(xiàn)重復(fù)、難以同時(shí)保持參考圖像特征與提示詞的語義約束。SkyReels V3 依據(jù)多主體與背景參考圖像,并結(jié)合用戶輸入的提示詞,從而生成符合組合關(guān)系與情節(jié)發(fā)展的視頻片段。
這里有兩大創(chuàng)新點(diǎn)值得關(guān)注:一是對參考圖像具備很強(qiáng)的內(nèi)容保持能力,為此構(gòu)建了一整套數(shù)據(jù)處理流程,采用跨幀配對策略從連續(xù)視頻中選擇參考幀,借助圖像編輯模型提取主體圖像,并同步完成背景補(bǔ)全與語義改寫,從而有效規(guī)避「復(fù)制粘貼」效應(yīng)。二是訓(xùn)練階段引入圖像 - 視頻混合訓(xùn)練機(jī)制,支持多分辨率聯(lián)合訓(xùn)練,顯著提升模型泛化性能。
最終,SkyReels V3 在實(shí)現(xiàn)主體與背景一致性二者兼得的同時(shí),可以精準(zhǔn)響應(yīng)用戶指令要求,并在多項(xiàng)評估基準(zhǔn)測試中得到驗(yàn)證,取得了業(yè)界閉源 SOTA。
![]()
其次是基于音頻參考的視頻生成。在今年 8 月發(fā)布的音頻驅(qū)動(dòng)數(shù)字人模型 SkyReels-A3 基礎(chǔ)上,SkyReels V3 進(jìn)一步優(yōu)化了音畫對齊和畫面質(zhì)量,并在業(yè)內(nèi)首次支持單鏡頭多人多輪對話。前文實(shí)測中栩栩如生的數(shù)字人視頻正是基于這項(xiàng)能力生成。
做到這一點(diǎn)需要更好地解決時(shí)序與語義同步、多主體空間分配與身份保持、鏡頭連貫性與視覺協(xié)調(diào)等層面的技術(shù)挑戰(zhàn),為此昆侖萬維引入了區(qū)域路由機(jī)制,讓用戶可以自由指定畫面中的若干角色說話,并將含有角色標(biāo)簽的多段音頻按對話順序拼接,從而實(shí)現(xiàn)自然流暢的多輪對話。
為了進(jìn)一步提升生成視頻的整體質(zhì)量,SkyReels V3 在保持高精準(zhǔn)音畫同步之外強(qiáng)化了運(yùn)鏡控制,對多種復(fù)雜運(yùn)鏡組合的嫻熟運(yùn)用增強(qiáng)了觀賞性與藝術(shù)表現(xiàn)力。具體來講,通過輸入相機(jī)運(yùn)動(dòng)參數(shù)的監(jiān)督學(xué)習(xí),模型實(shí)現(xiàn)了同一時(shí)間多個(gè)運(yùn)鏡組合控制以及不同時(shí)間運(yùn)鏡的絲滑切換。同時(shí),SkyReels V3 利用關(guān)鍵幀插幀方法支持不同的動(dòng)作幅度,并做到分鐘級高質(zhì)量視頻生成
昆侖萬維表示,在相同分辨率生成場景下,SkyReels V3 的音畫同步效果和整體畫面質(zhì)量接近主流閉源 SOTA 視頻模型,比開源競品更是強(qiáng)了一大截。
![]()
最后是基于視頻參考的視頻生成,這正是 SkyReels V3 同時(shí)支持視頻延長、視頻風(fēng)格化與視頻編輯等多任務(wù)的能力根基。面對它們存在的條件理解差異,昆侖萬維進(jìn)行了系統(tǒng)性優(yōu)化:引入基于參考視頻和生成視頻關(guān)系的空間位置編碼和任務(wù)特定嵌入,實(shí)現(xiàn)統(tǒng)一的任務(wù)理解與表征;通過結(jié)合 token concat 的靈活性和 channel concat 的高效性,顯著減少了 token 數(shù)量并保持生成質(zhì)量;借助歷史增強(qiáng)機(jī)制實(shí)現(xiàn)分鐘級視頻延長。
其中針對視頻延長,SkyReels V3 基于視頻語義和用戶提示詞智能預(yù)測后續(xù)鏡頭銜接,支持單鏡頭延長以及 Cut-In、Cut-Out、Reverse Shot 等多種切鏡延長,并在單鏡頭與切鏡延長兩類任務(wù)上達(dá)到業(yè)界 SOTA。針對視頻風(fēng)格化,自研一套端到端自動(dòng)化的風(fēng)格化數(shù)據(jù)生成與篩選流程,結(jié)合 ControlNet 的可控生成能力與多模態(tài)模型的過濾機(jī)制,從數(shù)據(jù)層面確保視頻風(fēng)格化的規(guī)模化訓(xùn)練與藝術(shù)可控性。針對視頻編輯,支持編輯指令、遮罩區(qū)域與參考圖聯(lián)合控制,實(shí)現(xiàn)增刪改替等靈活操作,功能即將上線。
這套連招下來,SkyReels V3 在技術(shù)上統(tǒng)一了圖像、音頻與視頻的多模態(tài)生成體系,從理解內(nèi)容到生成畫面、掌控?cái)⑹氯孢M(jìn)化。
人人皆可專業(yè)創(chuàng)作
正在加速到來
從大約兩年前 Pika、Sora 將人們的目光引入到 AI 視頻賽道開始,國內(nèi)外的玩家們進(jìn)入到了狂飆模式。每一次模型能力的突破,都在不斷拓寬視頻生成這一概念的邊界。從工具創(chuàng)新到創(chuàng)作方式重塑,這個(gè)賽道變得越來越成熟與多元化。
如今的國內(nèi)廠商,不僅在與谷歌、OpenAI 等國際巨頭的正面競爭中不落下風(fēng)。并且憑借在創(chuàng)作場景、內(nèi)容生態(tài)上的深厚積累,很多更是走出了差異化的發(fā)展路徑 —— 一邊著力提升產(chǎn)品表現(xiàn),一邊押注生態(tài)布局。
以昆侖萬維為例,其自去年 8 月推出 SkyReels 之后,便開始了在該賽道的突飛猛進(jìn)。今年以來,昆侖萬維先后發(fā)布并開源了視頻生成模型SkyReels V1、V2 以及 SkyReels A1、A2、A3,每一次都能在國內(nèi)外創(chuàng)作者圈中留下不錯(cuò)的口碑。
![]()
依托這些強(qiáng)大的基礎(chǔ)模型,SkyReels 逐漸形成了集圖片生成、口播講解、故事音樂、戲劇、對口型數(shù)字人等于一身的 AI 視頻創(chuàng)意矩陣,一站式地為媒體、電商、教育、音樂、游戲等各行各業(yè)提供高質(zhì)量、多樣性的內(nèi)容輸出。
此次全新 SkyReels 重磅上線,將進(jìn)一步鞏固昆侖萬維全球 AI 視頻第一梯隊(duì)的地位,并加速「人人皆可專業(yè)視頻創(chuàng)作」愿景的到來。
而作為昆侖萬維堅(jiān)定推進(jìn)人工智能戰(zhàn)略、聚焦 AGI 與 AIGC 的核心業(yè)務(wù)之一,AI 視頻與 AI 智能助手、AI 音樂與音頻、AI 短劇、AI 社交以及 AI 游戲共同構(gòu)筑多元矩陣,并成為新時(shí)代下營收增長的重要引擎之一。昆侖萬維數(shù)天前發(fā)布的 2025 第三季度報(bào)告顯示:前三季度,公司實(shí)現(xiàn)營業(yè)收入 58 億元,同比增長 52%,公司 AI 相關(guān)業(yè)務(wù)收入同比大幅增長,證明了其多模態(tài)一體化戰(zhàn)略的前瞻性與商業(yè)落地能力。
未來,AI 視頻賽道還將解鎖怎樣的新玩法,期待一波昆侖萬維給出的答案。
文中視頻鏈接:https://mp.weixin.qq.com/s/FIkmbXPq31TmWgl2hgeXIQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.