<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      美團(tuán)視頻生成模型來了!一出手就是開源SOTA

      0
      分享至

      美團(tuán),你是跨界上癮了是吧!(doge)

      沒錯(cuò),最新開源SOTA視頻模型,又是來自這家“送外賣”的公司。

      模型名為LongCat-Video,參數(shù)13.6B,支持文生/圖生視頻,視頻時(shí)長可達(dá)數(shù)分鐘。



      從官方釋出的demo來看,模型生成的視頻不僅更加真實(shí)自然,而且懂物理的能力又雙叒增強(qiáng)了。

      無論是空中滑板:



      還是一秒特效變身:



      抑或是第一視角下,全程需要保持畫面一致的騎車視頻(時(shí)長整整有4分多種):



      仔細(xì)看,視頻的AI味兒濃度確實(shí)降低不少。

      而且從測評(píng)成績來看,其表現(xiàn)也相當(dāng)亮眼——文生視頻能力在開源模型中處于頂尖水平,整體質(zhì)量優(yōu)于PixVerse-V5和Wan2.2-T2V-A14B,部分核心維度甚至可與谷歌最新、最強(qiáng)閉源模型Veo3媲美。





      而且由于采用的是允許商用的MIT協(xié)議,連Hugging Face高級(jí)主管也用三連問來表示驚嘆。

      • 中國團(tuán)隊(duì)竟然發(fā)布了一個(gè)MIT協(xié)議的基礎(chǔ)視頻模型???



      以及其長視頻生成能力(穩(wěn)定輸出5分鐘)也被視為,“我們離視頻AI的終極形態(tài)又更進(jìn)一步”。



      so,一家外賣公司出品的視頻模型究竟如何?來看更多案例。

      文生/圖生視頻開源SOTA,還能像制作連續(xù)劇一樣生成長視頻!

      整體而言,美團(tuán)這次發(fā)布并開源的LongCat-Video具備以下功能:

      • 文生視頻:可生成720p、30fps高清視頻,語義理解與視覺呈現(xiàn)能力達(dá)開源SOTA級(jí)別;
      • 圖生視頻:能夠保留參考圖像的主體屬性、背景關(guān)系與整體風(fēng)格等;
      • 視頻延長:核心差異化能力,可基于多幀條件幀續(xù)接視頻內(nèi)容。

      文生視頻方面,從官方提供的案例來看,這個(gè)模型尤為強(qiáng)調(diào)對(duì)真實(shí)世界的理解能力

      一眼看去,主頁上一溜的足球、體操、跳舞等視頻:



      僅以其中的“水上芭蕾”來看,模型面臨的挑戰(zhàn)不可謂不艱難——既需要具備高度的細(xì)節(jié)捕捉能力,還需要能夠處理復(fù)雜的光影效果、環(huán)境模擬和動(dòng)態(tài)場景。

      而LongCat-Video幾乎都考慮到了,整體完成度be like:



      圖生視頻方面,這不雙十一到了,所以各大商家也能拿來做一些更實(shí)用的宣傳視頻了:



      當(dāng)然,由于提供了原始參考圖,所以圖生視頻上通常我們更看重模型是否能保持前后一致。

      而當(dāng)給了LongCat-Video一張機(jī)器人正在工作的圖片后,它直接立馬生成了機(jī)器人“居家辦公”的日常vlog。

      一會(huì)兒拿桌上的小熊、一會(huì)兒拿水杯、甚至下班關(guān)電腦……不同動(dòng)作下,桌面及周圍的環(huán)境均未發(fā)生“異變”,扛住了一致性挑戰(zhàn)。



      當(dāng)搞定了一致性這個(gè)“老大難”后,LongCat-Video的玩法也就更多了。

      白天當(dāng)壁畫,晚上出來打游戲可還行(誰說不是真·破壁呢?)。



      還能制作動(dòng)畫大電影:



      此外,LongCat-Video最核心的能力還在于視頻延長,它能像制作連續(xù)劇一樣生成分鐘級(jí)長視頻。

      一個(gè)視頻搞定后,只需接著續(xù)寫提示詞,最終就能生成一個(gè)完整情節(jié)或片段。

      比如下面這個(gè)接近半分鐘的視頻,就是通過以下提示詞一步步實(shí)現(xiàn)的(中譯版):

      1、廚房明亮通風(fēng),白色櫥柜和木質(zhì)臺(tái)面交相輝映。一塊新鮮出爐的面包放在砧板上,旁邊放著一個(gè)玻璃杯和一盒牛奶。一位身著碎花圍裙的女士站在木質(zhì)臺(tái)面旁,熟練地用鋒利的刀切著一塊金黃色的面包。面包放在砧板上,她切的時(shí)候,面包屑四處飛濺。

      2、鏡頭拉遠(yuǎn),女人放下手中的刀,伸手去拿牛奶盒,然后將其倒入桌上的玻璃杯中。

      3、女人放下牛奶盒。

      4、女人拿起牛奶杯,抿了一口。



      怎么樣?是不是有拍電影電視劇的感jio了~

      敲黑板,由于LongCat-Video本身就經(jīng)過視頻連續(xù)任務(wù)的預(yù)訓(xùn)練,所以它能夠制作長達(dá)數(shù)分鐘的視頻,而不會(huì)出現(xiàn)顏色漂移或質(zhì)量下降的情況(一般可穩(wěn)定輸出5分鐘級(jí)別的長視頻,且無質(zhì)量損失)。

      美團(tuán)表示,之所以推出LongCat-Video,核心瞄準(zhǔn)的還是世界模型這一前沿領(lǐng)域:

      • 作為能夠建模物理規(guī)律、時(shí)空演化與場景邏輯的智能系統(tǒng),世界模型賦予AI“看見”世界運(yùn)行本質(zhì)的能力。而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過視頻生成任務(wù)壓縮幾何、語義、物理等多種形式的知識(shí),AI得以在數(shù)字空間中模擬、推演乃至預(yù)演真實(shí)世界的運(yùn)行。

      而為了構(gòu)建視頻模型LongCat-Video,美團(tuán)這次在技術(shù)方面也是進(jìn)行了一系列創(chuàng)新和突破。

      背后技術(shù)原理

      LongCat-Video只有13.6B,但集成了文生視頻、圖生視頻和視頻續(xù)生三大任務(wù)于一體。



      具體來說,整個(gè)模型以Diffusion Transformer(DiT)為框架設(shè)計(jì),其中每個(gè)Transformer塊都由3D自注意力層、交叉注意力層,以及采用SwiGLU激活函數(shù)的前饋網(wǎng)絡(luò)組成。

      并使用AdaLN-Zero調(diào)制機(jī)制,將每個(gè)Transformer塊均集成為專用的調(diào)制多層感知機(jī),再在自注意力和交叉注意力模塊中,采用RMSNorm歸一化以提升訓(xùn)練穩(wěn)定性,另外還對(duì)視覺token的位置編碼使用3D RoPE。



      然后將所有任務(wù)都定義為視頻續(xù)生任務(wù),通過條件幀數(shù)量進(jìn)行區(qū)分:

      • 文本到視頻:0幀條件。
      • 圖像到視頻:1幀條件。
      • 視頻續(xù)生:多幀條件。

      統(tǒng)一混合輸入后,將無噪聲的條件幀和待去噪的噪聲幀沿著時(shí)間軸拼接,結(jié)合時(shí)序步配置,以實(shí)現(xiàn)單模型原生支持多任務(wù)。

      而為了適配這類輸入,研究團(tuán)隊(duì)還在架構(gòu)中設(shè)計(jì)了一種帶鍵值緩存(KVCache)的塊注意力機(jī)制,該設(shè)計(jì)可以確保條件token不受噪聲token的影響,且后續(xù)可以緩存并復(fù)用條件token的KV特征,提升長視頻生成效率。

      其中最矚目的長視頻生成能力,主要通過原生預(yù)訓(xùn)練設(shè)計(jì)和交互式生成支持兩大核心特性實(shí)現(xiàn)。

      首先LongCat-Video摒棄了傳統(tǒng)的“先訓(xùn)練基礎(chǔ)視頻生成能力,再針對(duì)長視頻任務(wù)微調(diào)”的訓(xùn)練路徑,而是直接在視頻續(xù)生任務(wù)上預(yù)訓(xùn)練

      這樣做可以直接從源頭解決長視頻生成中的累積誤差問題,在生成分鐘級(jí)視頻的同時(shí),避免色彩漂移和質(zhì)量下降。

      另外LongCat-Video還支持交互式長視頻生成,允許用戶為不同片段設(shè)置獨(dú)立指令,進(jìn)一步擴(kuò)展了長視頻創(chuàng)作的靈活性。



      為了提高視頻生成的推理效率,團(tuán)隊(duì)提出了一種從粗到精的生成范式,先是讓模型生成480p、15fps的低分辨率低幀率視頻,再通過三線性插值將分辨率升級(jí)至720p、30fps,同時(shí)由一個(gè)LoRA訓(xùn)練的精煉專家模型進(jìn)行細(xì)節(jié)優(yōu)化。

      再引入塊稀疏注意力,將注意力計(jì)算量降至原始的10%以下,配合上下文并行的環(huán)形塊稀疏注意力,進(jìn)一步優(yōu)化高分辨率生成效率。



      結(jié)合CFG蒸餾和一致性模型(CM)蒸餾,將采樣步數(shù)從50步縮減至16步,實(shí)現(xiàn)在單H800 GPU上,單個(gè)720p、30fps視頻生成可在分鐘內(nèi)完成,效率提升超10倍。

      另外針對(duì)視頻生成場景,使用組相對(duì)策略優(yōu)化(GRPO)算法,提升GRPO在視頻生成任務(wù)中的收斂速度與生成質(zhì)量。



      在訓(xùn)練過程中,分別采用三類專用獎(jiǎng)勵(lì)模型:

      • 視覺質(zhì)量
      • (VQ):結(jié)合HPSv3-general和HPSv3-percentile進(jìn)行評(píng)估。
      • 運(yùn)動(dòng)質(zhì)量
      • (MQ):基于VideoAlign模型微調(diào),并使用灰度視頻訓(xùn)練避免色彩偏好。
      • 文本-視頻對(duì)齊度
      • (TA):同樣基于VideoAlign模型微調(diào),但保留原始的彩色輸入。

      然后進(jìn)行多獎(jiǎng)勵(lì)加權(quán)融合訓(xùn)練,避免單一獎(jiǎng)勵(lì)的過擬合和獎(jiǎng)勵(lì)欺騙問題,實(shí)現(xiàn)視覺、運(yùn)動(dòng)、對(duì)齊能力的均衡提升。



      在完成數(shù)據(jù)構(gòu)建和模型訓(xùn)練后,研究團(tuán)隊(duì)首先對(duì)其進(jìn)行內(nèi)部基準(zhǔn)測試,主要評(píng)估文生視頻和圖生視頻性能。

      其中文生視頻,包含文本對(duì)齊、視覺質(zhì)量、運(yùn)動(dòng)質(zhì)量、整體質(zhì)量四個(gè)維度。

      實(shí)驗(yàn)結(jié)果表明,LongCat-Video在整體質(zhì)量得分中超越PixVerse-V5和Wan2.2-T2V-A14B,視覺質(zhì)量接近Wan2.2-T2V-A14B,僅略遜于閉源模型Veo3

      圖生視頻則在此基礎(chǔ)上,新增圖像對(duì)齊維度評(píng)估,最終結(jié)果中LongCat-Video的視覺質(zhì)量得分最高(3.27),說明整體質(zhì)量具有競爭力,但圖像對(duì)齊與運(yùn)動(dòng)質(zhì)量仍有提升空間。



      另外研究團(tuán)隊(duì)還進(jìn)行了VBench 2.0的公開基準(zhǔn)測試,LongCat-Video總得分位列第三(62.11%),僅次于Veo3(66.72%)和Vidu Q1(62.7%)。



      值得注意的是,LongCat-Video在常識(shí)性維度(運(yùn)動(dòng)合理性、物理定律遵循)上處于第一的領(lǐng)先優(yōu)勢,凸顯出該模型優(yōu)秀的物理世界建模能力。

      One More Thing

      而這已經(jīng)不是這家外賣公司第一次“不務(wù)正業(yè)”了……

      從八月底開始,美團(tuán)龍貓大模型就在不停地發(fā)發(fā)發(fā),先是端出來了最經(jīng)典的開源基礎(chǔ)模型LongCat-Flash-Chat

      總參數(shù)560B,可以在僅激活少量參數(shù)的前提下,實(shí)現(xiàn)性能比肩市面上的主流模型,尤其是在復(fù)雜的Agent任務(wù)中表現(xiàn)突出。

      而且現(xiàn)已登陸API平臺(tái)使用~



      一個(gè)月不到,又上新了LongCat-Flash-Thinking,在邏輯、數(shù)學(xué)、編碼、Agent多任務(wù)中均達(dá)成SOTA水平,是國內(nèi)首個(gè)同時(shí)具備“深度思考+工具調(diào)用”和“非形式化+形式化”推理能力的LLM,可以實(shí)現(xiàn)更低成本、更優(yōu)性能。



      隨后又專為語音LLM推出了LongCat-Audio-Codec,可以同時(shí)對(duì)語義和聲學(xué)token以低幀速率(16.7Hz/60ms)并行提取,實(shí)現(xiàn)高效離散化,并能夠在極低的比特率中保持高清晰度。

      以及專為復(fù)雜現(xiàn)實(shí)生活場景(外賣送餐、餐廳點(diǎn)餐、旅游出行)打造的Agent評(píng)測基準(zhǔn)——VitaBench,可以系統(tǒng)性衡量Agent在推理、工具使用和自適應(yīng)交互方面的能力。(淚目,終于回歸老本行.jpg)

      最后再到今天的視頻生成模型,毫無疑問,“跨界”AI正在成為這家外賣公司的新常態(tài)。

      開源地址:
      https://github.com/meituan-longcat/LongCat-Video
      https://huggingface.co/meituan-longcat/LongCat-Video
      項(xiàng)目主頁:
      https://meituan-longcat.github.io/LongCat-Video/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      一覺醒來,估計(jì)全國人民都知道了32歲的楊紫!

      一覺醒來,估計(jì)全國人民都知道了32歲的楊紫!

      動(dòng)物奇奇怪怪
      2025-10-31 02:51:26
      原來升級(jí)矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

      原來升級(jí)矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

      夜深愛雜談
      2025-11-05 07:56:38
      蔡孝乾叛變吳石暴露,李克農(nóng)派出的潛臺(tái)小組,不辱使命絕境立功

      蔡孝乾叛變吳石暴露,李克農(nóng)派出的潛臺(tái)小組,不辱使命絕境立功

      黑句本
      2025-11-03 10:45:13
      雷軍演講,被罵上熱搜

      雷軍演講,被罵上熱搜

      梳子姐
      2025-09-28 11:29:09
      常揉此穴,一輩子遠(yuǎn)離心梗!沒事記得揉一揉

      常揉此穴,一輩子遠(yuǎn)離心梗!沒事記得揉一揉

      神奇故事
      2025-11-04 22:03:24
      慕了!清一色的ETF,女方的嫁妝清單...

      慕了!清一色的ETF,女方的嫁妝清單...

      金石隨筆
      2025-11-05 00:09:15
      中國共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡歷

      中國共產(chǎn)黨中央軍事委員會(huì)副主席張升民簡歷

      上觀新聞
      2025-10-23 18:17:07
      壽命長不長,牙齒先知?60歲后,掉牙多的人活得久?告訴你答案

      壽命長不長,牙齒先知?60歲后,掉牙多的人活得久?告訴你答案

      涵豆說娛
      2025-10-24 09:24:57
      左小青很難再結(jié)婚了,不是因?yàn)樗昙o(jì)大,也不是因?yàn)樗€愛高權(quán)健

      左小青很難再結(jié)婚了,不是因?yàn)樗昙o(jì)大,也不是因?yàn)樗€愛高權(quán)健

      百態(tài)人間
      2025-11-03 16:13:35
      封殺4年后,49歲趙薇又有消息,因胃癌去世傳聞5個(gè)月前就真相大白

      封殺4年后,49歲趙薇又有消息,因胃癌去世傳聞5個(gè)月前就真相大白

      古木之草記
      2025-11-05 19:54:34
      拔出蘿卜帶出泥!釋永信被抓后,實(shí)名舉報(bào)的釋延魯也被抓到小辮

      拔出蘿卜帶出泥!釋永信被抓后,實(shí)名舉報(bào)的釋延魯也被抓到小辮

      冒泡泡的魚兒
      2025-11-05 11:56:29
      貴州茅臺(tái):擬以15億至30億元回購股份并注銷

      貴州茅臺(tái):擬以15億至30億元回購股份并注銷

      財(cái)聯(lián)社
      2025-11-05 21:00:37
      中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

      中山博愛路、北外環(huán)超速罰千元扣12分?車主直呼不敢踩油門!

      中山印象體育攝影師
      2025-11-05 12:00:05
      日本首任女首相居然沒有資格給日本相撲力士頒獎(jiǎng)?

      日本首任女首相居然沒有資格給日本相撲力士頒獎(jiǎng)?

      隨波蕩漾的漂流瓶
      2025-11-04 16:55:03
      澤塔·瓊斯的兩個(gè)孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

      澤塔·瓊斯的兩個(gè)孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

      小書生吃瓜
      2025-10-04 19:04:08
      45秒冷板凳焊死 楊瀚森發(fā)展聯(lián)盟零登場 我們高估他的“即戰(zhàn)力”了?

      45秒冷板凳焊死 楊瀚森發(fā)展聯(lián)盟零登場 我們高估他的“即戰(zhàn)力”了?

      生活新鮮市
      2025-11-05 11:55:07
      統(tǒng)一臺(tái)灣進(jìn)入快車道了

      統(tǒng)一臺(tái)灣進(jìn)入快車道了

      觀察者網(wǎng)
      2025-11-05 11:10:17
      日本沒想到,美國也沒想到,如今的中國陜西省,已成為全球焦點(diǎn)

      日本沒想到,美國也沒想到,如今的中國陜西省,已成為全球焦點(diǎn)

      林子說事
      2025-11-05 14:11:54
      你談過最拉胯的男朋友是啥樣?網(wǎng)友:對(duì)女人來說,錢才是最重要的

      你談過最拉胯的男朋友是啥樣?網(wǎng)友:對(duì)女人來說,錢才是最重要的

      帶你感受人間冷暖
      2025-11-04 00:05:11
      馮德萊恩終于等到?中美達(dá)成大交易,歐盟要求中方提供同等待遇

      馮德萊恩終于等到?中美達(dá)成大交易,歐盟要求中方提供同等待遇

      介知
      2025-11-04 18:02:22
      2025-11-05 22:55:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      11633文章數(shù) 176326關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      體育要聞

      贏下皇馬,會(huì)是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財(cái)經(jīng)要聞

      事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      時(shí)尚
      教育
      房產(chǎn)

      藝術(shù)要聞

      蒲華:搦管寫竹,墨沈淋漓

      旅游要聞

      獨(dú)立懸崖之巔,俯瞰壯美金沙江,盡情領(lǐng)略其“如玉”的一面

      今年一定要擁有這件大衣,復(fù)古又時(shí)髦!

      教育要聞

      爸爸的嫂子叫什么

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲av无码乱码在线观看野外 | 69精品无人区国产一区| 熟妇的味道hd中文字幕| 色婷婷综合久久久久中文字幕 | 中文字字幕在线中文乱码| 亚洲综合av男人的天堂| 亚洲综合网中文字幕在线| 成人免费在线播放av| 漂亮人妻中文字幕丝袜| 午夜福利日本一区二区无码| 中文乱码字幕在线中文乱码| 国产成人毛片无码视频软件| 天天做天天爱夜夜爽导航| 97午夜理论电影影院| 汝城县| 亚洲国产激情一区二区三区| 国产一区二区波多野结衣| 郸城县| www插插插无码免费视频网站| 国产成AV人片久青草影院| 中文字幕无码乱码人妻系列蜜桃| 吉川爱美一区二区三区视频| 亚洲人午夜射精精品日韩| 亚洲av无码片在线播放| 亚洲人成网站77777在线观看| 午夜免费啪视频| 精品亚洲国产成人av制服| 国产av国片精品一区二区| 亚洲中文字幕无码久久2020| 99中文字幕精品国产| 国产偷国产偷亚洲清高网站| 黄色国产精品一区二区三区| 亚洲综合精品第一页| 色综合天天综合天天综| 久久这里只精品热免费99| 日韩在线视频一区二区三区| 免费人成在线观看网站| 国产亚洲精品久久综合阿香| 亚洲av乱码久久亚洲精品| 色老头亚洲成人免费影院| 国产jizzjizz视频|