網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

僅僅一年，視頻大模型又變了

2025-10-20 14:03:03　來源: 南風窗

廣東舉報

分享至

唯物的中國芯片產業(yè)深度觀察

百度創(chuàng)始人李彥宏在一次內部講話中說，Sora這種AI視頻大模型投入周期太長，10年、20年都可能拿不到業(yè)務收益，無論多火爆，百度都不會去做。

那是2024年10月，創(chuàng)造了ChatGPT的公司Open AI推出文生視頻應用Sora已經(jīng)有7個月。

今年大不相同。

9月30日，Sora 2正式發(fā)布。僅僅過了14天，百度便高調推廣“百度蒸汽機”AI視頻模型，和急于“秀肌肉”的谷歌Veo 3.1撞個滿懷。

Sora問世時一片寂靜，而Sora 2誕生后，各個競爭對手都急著與Sora 2一爭高下，唯恐少出了風頭。

中國AI視頻應用從沉寂到火熱，這些前后轉變到底隱藏著大廠的哪些秘密？

一片沉寂

雖然李彥宏說“百度不會去做”的幾個月后，百度就開始加大力度投入AI視頻，但李彥宏的說法也確實指出了行業(yè)里的普遍焦慮。

這種焦慮直接導致了中國大廠在Sora推出時“一片沉寂”。

話要說回2024年2月。Sora一問世就成了Open AI手里的一張王牌應用。和其他應用“模擬現(xiàn)實”不同，Sora達到了“建構現(xiàn)實”的高度：二者的區(qū)別是，前者只能模仿現(xiàn)實世界的表象，而后者在數(shù)字世界里依照現(xiàn)實規(guī)則重新建構了“現(xiàn)實”。

比如，在現(xiàn)實中，我們咬下一口蘋果，蘋果上會留下牙齒的痕跡。Sora生成的視頻能夠再現(xiàn)這一細節(jié)，是因為它遵循了施力、受力這一基本物理規(guī)則。細節(jié)是真實感的基礎，視頻和圖像最需要細節(jié)的真實。

那時，其他文生視頻應用都做不到這一點。

Sora之前，國內大廠也布局了文生視頻領域。2023年底，百度發(fā)布過文生視頻工具“度加剪輯”，可以一鍵獲取最新熱點、AI生成文案、一鍵生成視頻。字節(jié)跳動推出過同類模型Pixel Dance，阿里也曾上線Animate Anyone模型。

然而，Sora一出，中國大廠避之不及，有公司甚至堅決否認自家產品等于“中文版Sora”。

當時，國內大廠布局的重點并不在文生視頻領域，他們的當務之急可不是做出中國版Sora，而是努力趕上GPT-4。

圖源：pexels

由于當時中國AI大模型和GPT相去甚遠，自然搞“基礎建設”而不是“上層建筑”是更緊迫的事情。就像某大廠模型業(yè)務負責人曾無奈表示，“ChatGPT之前大家也都有聊天機器人啊……關鍵是能不能達到那個水準。”

中國大廠的焦慮，根本原因在于自家大模型與Open AI、谷歌的世界頂級大模型之間的巨大差距。如果大模型能力有限，談什么文生視頻模型實在奢侈。

不過，中國大廠的焦慮，已經(jīng)隨著2025年初深度求索推出“物美價廉”的DeepSeek模型而大大減輕。

家家都有

今年，基礎大模型競爭迭代速度極快，甚至連“價格戰(zhàn)”都打完了。誰家還沒有視頻模型，肯定會被質疑大模型實力不夠。

截至2025年10月，中國市場上已經(jīng)有20多款視頻大模型產品，阿里、騰訊、字節(jié)、百度均參與其中。海外市場，除了Open AI，谷歌、Meta等巨頭以及Runway、Luma AI、Midjourney等創(chuàng)業(yè)公司都在同臺競技。

一位大模型從業(yè)者告訴南風窗，大模型基礎信息處理能力的提升與成本的下降，讓豆包、通義、文心等幾款大模型獲得了快速增長。深度推理能力、視覺推理能力以及Agent相關技術將成為未來幾年基礎大模型競爭的關鍵。

因此，依照當下的局面，李彥宏對“不做AI視頻應用”的反悔、積極布局多模態(tài)大模型就不難理解了。從文心大模型4.5到4.5 Turbo，從文心大模型X1到X1 Turbo，百度模型性能提升的同時，多模態(tài)能力也在進一步增強，推出“百度蒸汽機”也順理成章。

從技術的角度看，各家大模型之視頻分模型，比如Sora 2和Veo3.1，正在沿著兩大方向演進，一方面是視頻質量持續(xù)提升——畫面更真實、提示詞理解更準確；另一方面是用戶編輯能力的強化——從整體生成到局部修改、對象增刪，操作更加精細，交互感更強。

更關鍵的是，音頻即時生成，極大填補了此前AI視頻工具只能做“默片”的短板。

對于“頂流”AI視頻生成應用的測試，也已經(jīng)和考驗聊天機器人的測試差不多了。近幾天，多位網(wǎng)友以“同題考試”的辦法，測試了Sora 2和Veo3.1的能力，最后發(fā)現(xiàn)兩家公司的訓練模式和邏輯的不同：谷歌強調物理世界的規(guī)則，而Open AI更注重娛樂性。

這也意味著，各家公司依靠自身的特色和稟賦來創(chuàng)造“風格化”的AI應用。AI視頻應用正在從“大幫哄”走向精細化、特色化時代。

爭做大平臺

一旦大模型的能力跟上了，“李彥宏的反悔”就成了更加“現(xiàn)實”的問題：如何降低AI視頻應用的成本，找到商業(yè)化前景？

而Sora 2的玩法，恰恰讓業(yè)界看到了變現(xiàn)的希望。

首先是成本降低，可用性增強。

Open AI發(fā)布的樣片中，有花樣滑冰運動員頂著貓咪完成轉體三周半動作，有業(yè)余愛好者跌倒在沖浪板上的水花四濺，有宮崎駿動畫風格的男孩和小狗在風中奔跑……

Open AI官網(wǎng)發(fā)布的樣片，一名花樣滑冰選手在頭上戴著一只貓做三軸動作

Open AI官網(wǎng)發(fā)布的樣片，業(yè)余愛好者跌倒在沖浪板上的水花四濺

Open AI官網(wǎng)發(fā)布的樣片，宮崎駿動畫風格的男孩和小狗在風中奔跑

雖然用戶真正生成的視頻和這些精美的樣片之間還是有一定的差距，但是觀眾也從中看到了用AI講出好故事的可能。對于用戶來說，過去辛辛苦苦寫提示詞、生成一段5秒的視頻，最后只有0.5秒能用，現(xiàn)在可以直接生成一個復雜鏡頭構成的電影片段，幾乎不用大改。

同時，AI演員也躍躍欲試，準備替代真人演員。9月底蘇黎世電影節(jié)爆紅的AI演員蒂利·諾伍德，據(jù)悉已經(jīng)有好萊塢經(jīng)紀公司邀約在身，氣得一眾影星紛紛發(fā)帖保衛(wèi)自己的飯碗。

AI場景與AI演員的結合，可能讓壟斷性的電影“短視頻化”，成為大眾田間地頭的隨手創(chuàng)作，擺脫過去的行業(yè)壟斷。

蒂利·諾伍德

其次，“創(chuàng)作者成功，則平臺成功”，互聯(lián)網(wǎng)大廠無不以“平臺化”而發(fā)家，而近日Sora 2的最大動作，就是讓免費用戶“一鍵創(chuàng)作視頻”，把用戶從網(wǎng)頁端轉移到APP移動端，實現(xiàn)“戰(zhàn)略下沉”。

Sora 2的用戶設計非常友好。與Meta忙三火四地推出Vibes相比，OpenAI展現(xiàn)了產品化方面的優(yōu)勢。這款應用允許用戶創(chuàng)建10秒以內的短視頻，還可以把自己或朋友的形象插入其中。這種高度個性化和社交化的設計，被認為是比簡單的社交標簽頁更聰明的策略，也是它迅速引爆社交網(wǎng)絡的原因之一。

Open AI的CEO山姆·奧特曼在Sora更新信息之中明確提到“為創(chuàng)作者提供變現(xiàn)機制”。很快，隨著邀請制測試結束，Sora將迅速補齊編輯功能、增加用戶激勵機制，向“大平臺”發(fā)起沖擊。

Open AI的CEO山姆·奧特曼

這意味著，只要90%以上的免費用戶找到了變現(xiàn)途徑、看到了變現(xiàn)的希望，Sora就有機會成為TikTok一樣用戶生產、用戶消費的閉環(huán)平臺巨頭。

客觀地看，Sora 2可能會引領AI視頻的生產和傳播方式，也正在引發(fā)新一輪的全球生成式AI視頻的競爭大戰(zhàn)。

而TikTok的成功表明，同一類型的“平臺”數(shù)量不會太多，所以，在大模型差距逐漸縮小的時候，所有AI視頻廠商都想早日做成那個最大的平臺：最血腥的廝殺才剛剛開始。

作者 |榮智慧

編輯 | 向現(xiàn)

值班主編 | 張來

排版 | 八斤

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.