![]()
全模態智能,英偉達的下一步
你是否想過,未來的 AI 將會是什么樣子?
是只會打字的 Chat Bot,只會看圖的 VLM,還是只能分辨聲音的 ALM?
都不是! 真正的智能,應該像我們人類一樣,能夠同時看、聽、說、寫,既能看懂世界的五彩斑斕,也能聽懂萬物的聲音。
![]()
在不久前結束的英偉達華盛頓 GTC 大會上,老黃再三強調 “研究人員需要開源。開發者依賴開源。全球的公司,包括我們都離不開開源模型。開源非常,非常,重要。” 在老黃的號召下,全模態理解模型迎來重量級新玩家 —— 英偉達(NVIDIA)開源了 OmniVinci, 一款能理解多模態世界的全模態大語言模型(Omni-Modal LLM)。該模型實現了視覺、音頻、語言在同一潛空間(latent space)中的統一理解, 讓 AI 不僅能識別圖像、聽懂語音,還能推理、對話、生成內容。這個 9B 的視覺 - 語音理解全模態模型剛上線就爆火,一周時間 Huggingface 模型權重目前已經有超過10000次下載量!
![]()
- 論文標題:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
- 項目地址:https://github.com/NVlabs/OmniVinci
- 論文地址:https://arxiv.org/abs/2510.15870
- 開源模型:https://huggingface.co/nvidia/omnivinci
秀翻全場!多模態理解性能全面超越
![]()
和相近尺寸的全模態模型競品相比,OmniVinci 在多項常用多模態基準測試榜單中取得了顯著優勢,包括視頻 - 音頻跨模態理解任務(DailyOmni +19.05),音頻理解 (MMAR + 1.7),和視頻理解 (Video-MME +3.9),展現出卓越的全模態理解能力。更重要的是,OmniVinci 少用了近 6 倍的數據量實現了超越,展現了其架構和數據引擎的卓越效率。
三大架構創新:讓視覺與聽覺在同一空間共鳴
![]()
OmniVinci 不僅具備炸裂的榜單性能,其論文中通過大量科學實驗探索最優全模態模型架構的方法,而不是粗暴堆疊訓練數據,這種做法顯然更值得借鑒。想象一下,AI 看視頻時,畫面(視覺)和聲音(音頻)是兩條獨立的信息流。如果模型架構對此處理不好,AI 就會 “精神分裂”。而 OmniVinci 的目標就是讓它們完美同步,通過三項核心創新設計來實現:
OmniAlignNet:跨模態語義對齊網絡
這就像一個 “超級翻譯器”,讓模型在同一空間中 “看得見聲音,聽得懂畫面”。它創建了一個共享空間,通過對比學習 ,讓視覺信號和音頻信號能在這里用同一種 “語言” 無障礙交流,實現跨模態深度對齊。
![]()
Temporal Embedding Grouping (TEG):時間嵌入分組機制
將視覺幀與音頻信號按時間戳重組,使模型能跨模態感知事件的相對先后關系。AI 終于能搞清楚,是 “先開槍再有槍聲”,還是 “先有閃電再有雷聲”。它通過按時間戳分組,讓 AI 理解事件的先后順序 。
![]()
Constrained Rotary Time Embedding (CRTE):受約束旋轉時間嵌入
通過時間旋轉編碼,模型獲得絕對時間感知能力。AI 不僅知道 “先” 和 “后”,還知道這件事發生在視頻的第 5 秒,還是第 50 秒。
![]()
有了這三板斧,OmniVinci 才真正擁有了準確感知視覺,音頻和時間流逝的能力。
數據引擎:24M 多模態對話的背后
![]()
模型強度離不開數據支撐。OmniVinci 團隊構建了一個龐大的全模態數據引擎(Omni-Modal Data Engine),共涵蓋2400 萬條多模態對話樣本,覆蓋圖像、視頻、音頻、語音四大領域。數據分布中,圖像占 36%、音頻與語音共占 38%、視頻 11%、全模態數據 15%。其中包括兩種創新的全模態學習方式:
- 隱式全模態學習(Implicit Learning)
直接利用現有視頻自帶音頻的問答數據,讓模型在 “看視頻” 的同時 “聽聲音”。
- 顯式全模態學習(Explicit Learning)
通過 AI 單獨生成視覺和音頻模態專屬的描述,再由 LLM 進行交叉修正與融合,解決了單模態模型常見的 “幻覺”(如只看畫面誤判語義)。
實驗:打造全模態模型的關鍵洞察
[關鍵洞察 1] 單一模態打標 = 不靠譜!告別 “模態幻覺”
團隊發現,很多 AI 模型都有 “模態幻覺”: 只看圖(視覺):AI 看到一個深海機器人,可能會 “腦補” 說這是人類高科技的勝利 。只聽聲(音頻):AI 聽到旁白說 “地球最深處”,可能會 “瞎猜” 說這是關于地心的紀錄片 。因此一個集成了兩種模態的聯合字幕方法對于全面理解至關重要。
![]()
[關鍵洞察 2] 1 + 1 > 2!當聽覺 “點亮” 視覺
加上音頻,模型真的變強了嗎?答案是肯定的! 團隊發現,聲音為視覺提供了全新的信息維度,音視頻聯合學習能顯著提高視頻的理解能力 。只用視覺 (Visual Alone) 視覺 + 音頻 (隱式學習 IL) 視覺 + 音頻 + 全模態數據引擎 (顯式學習 EL) 結果顯示 (見下表),每增加一步,性能都在飆升!特別是加入了數據引擎的 “顯式學習” 后,模型性能在多個基準上都實現了巨大飛躍。
![]()
[關鍵洞察 3] 王牌對王牌:當 OmniVinci 遇上 “強化學習”
基礎模型已經這么強了,還能再進化嗎? 能!通過強化學習 (RL)!
音頻,讓強化學習 “如虎添翼”! 團隊在使用 GRPO 強化學習框架時發現了一個 “隱藏 Buff”: 只給 AI 看視頻(視覺)去訓練,遠不如 “邊看邊聽”(視聽結合)的效果好! 如圖所示,加入音頻后,模型的收斂速度更快。
![]()
強強對決,OmniVinci 更勝一籌! 在這個多模態 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能獲益 。但是,OmniVinci 憑借更強的基礎性能和指令跟隨能力,在 15 步內就超越了 Qwen2.5-Omni 的準確率,并且格式獎勵收斂速度快了 2.7 倍 ! 最終,經過 RL 訓練的 OmniVinci+RL,在所有全模態基準上再次實現全面提升!
![]()
![]()
不止是 SOTA,是全能 Agent
跑分只是基礎,真正的全模態 AI,必須能在真實世界 “大顯身手”。
OmniVinci 做到了。研究團隊用它測試了 N 個真實場景,效果非常好 :
場景一:聯合視聽感知
你給它一段播客視頻,它不僅能看懂主持人和嘉賓的外形,更能 “聽懂” 他們討論的復雜話題。
![]()
場景二:語音轉錄 + 翻譯
你對它說話,它能瞬間轉錄成文字。
![]()
場景三:全語音交互
你用語音問:“這個演講者的公司使命是啥?”
它立刻用語音答:“他的公司使命是在火星上建立一個自我維持的文明。”
![]()
場景四:指揮機器人,直接 “張嘴說”!
OmniVinci 能直接聽懂你的語音指令(比如 “進入臥室,在床腳站住” ),然后規劃下一步行動。這才是真正實用的人機交互!
![]()
場景五:AI 看懂 “專家會診”!
醫生一邊滾動查看 CT 影像,一邊用嘴說出診斷(“這里我們看到一些肺大皰和相關的纖維化改變...” ) 。OmniVinci 能同時 “看” CT 影像的動態變化 ,并 “聽” 懂醫生的專業解說 ,準確回答 “肺部紋理隨時間如何變化?” 這類高難度問題,在醫療 AI 上大展身手 !
![]()
場景六:AI “全能解說” 體育比賽!
看網球比賽,AI 不再是 “睜眼瞎”。OmniVinci 能同步理解激烈的視覺動作(誰在發球、誰贏了這一分)和解說員的評論。在預測得分結果和回合長度上,它完勝 Qwen2.5-Omni。更重要的是,量化后在消費級顯卡 GeForce RTX 4090 上它延遲極低,完全可以用于電視直播!
![]()
![]()
這不就是賈維斯嗎?
OmniVinci 的出現,可能不僅僅是一個新 SOTA 9B 全模態模型的誕生,它更代表了一種全新的 AI 范式。
未來,AI 不再是割裂的 “視覺模型” 或 “音頻模型”,而是統一的 “全模態感知系統”。
更低的訓練成本,意味著更快的迭代和更廣泛的應用。從能聽懂指令的機器人,到能理解醫生口述和 CT 影像的醫療 AI,再到監控異常聲音和畫面的智能工廠,一個更智能的未來,正在加速到來。
英偉達這次,又交出了一份驚艷的答卷。
對于 OmniVinci,你怎么看?你最期待它被用在什么地方?歡迎在評論區留下你的 “神預言”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.