網易首頁 > 網易號 > 正文申請入駐

開源即爆火！英偉達重磅推出OmniVinci全模態大模型

2025-11-06 15:54:29　來源: 機器之心Pro

北京舉報

分享至

全模態智能，英偉達的下一步

你是否想過，未來的 AI 將會是什么樣子？

是只會打字的 Chat Bot，只會看圖的 VLM，還是只能分辨聲音的 ALM？

都不是！真正的智能，應該像我們人類一樣，能夠同時看、聽、說、寫，既能看懂世界的五彩斑斕，也能聽懂萬物的聲音。

在不久前結束的英偉達華盛頓 GTC 大會上，老黃再三強調 “研究人員需要開源。開發者依賴開源。全球的公司，包括我們都離不開開源模型。開源非常，非常，重要。” 在老黃的號召下，全模態理解模型迎來重量級新玩家 —— 英偉達（NVIDIA）開源了 OmniVinci, 一款能理解多模態世界的全模態大語言模型（Omni-Modal LLM）。該模型實現了視覺、音頻、語言在同一潛空間（latent space）中的統一理解，讓 AI 不僅能識別圖像、聽懂語音，還能推理、對話、生成內容。這個 9B 的視覺 - 語音理解全模態模型剛上線就爆火，一周時間 Huggingface 模型權重目前已經有超過10000次下載量！

論文標題：OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
項目地址：https://github.com/NVlabs/OmniVinci
論文地址：https://arxiv.org/abs/2510.15870
開源模型：https://huggingface.co/nvidia/omnivinci

秀翻全場！多模態理解性能全面超越

和相近尺寸的全模態模型競品相比，OmniVinci 在多項常用多模態基準測試榜單中取得了顯著優勢，包括視頻 - 音頻跨模態理解任務（DailyOmni +19.05)，音頻理解 (MMAR + 1.7)，和視頻理解 (Video-MME +3.9)，展現出卓越的全模態理解能力。更重要的是，OmniVinci 少用了近 6 倍的數據量實現了超越，展現了其架構和數據引擎的卓越效率。

三大架構創新：讓視覺與聽覺在同一空間共鳴

OmniVinci 不僅具備炸裂的榜單性能，其論文中通過大量科學實驗探索最優全模態模型架構的方法，而不是粗暴堆疊訓練數據，這種做法顯然更值得借鑒。想象一下，AI 看視頻時，畫面（視覺）和聲音（音頻）是兩條獨立的信息流。如果模型架構對此處理不好，AI 就會 “精神分裂”。而 OmniVinci 的目標就是讓它們完美同步，通過三項核心創新設計來實現：

OmniAlignNet：跨模態語義對齊網絡

這就像一個 “超級翻譯器”，讓模型在同一空間中 “看得見聲音，聽得懂畫面”。它創建了一個共享空間，通過對比學習，讓視覺信號和音頻信號能在這里用同一種 “語言” 無障礙交流，實現跨模態深度對齊。

Temporal Embedding Grouping (TEG)：時間嵌入分組機制

將視覺幀與音頻信號按時間戳重組，使模型能跨模態感知事件的相對先后關系。AI 終于能搞清楚，是 “先開槍再有槍聲”，還是 “先有閃電再有雷聲”。它通過按時間戳分組，讓 AI 理解事件的先后順序。

Constrained Rotary Time Embedding (CRTE)：受約束旋轉時間嵌入

通過時間旋轉編碼，模型獲得絕對時間感知能力。AI 不僅知道 “先” 和 “后”，還知道這件事發生在視頻的第 5 秒，還是第 50 秒。

有了這三板斧，OmniVinci 才真正擁有了準確感知視覺，音頻和時間流逝的能力。

數據引擎：24M 多模態對話的背后

模型強度離不開數據支撐。OmniVinci 團隊構建了一個龐大的全模態數據引擎（Omni-Modal Data Engine），共涵蓋2400 萬條多模態對話樣本，覆蓋圖像、視頻、音頻、語音四大領域。數據分布中，圖像占 36%、音頻與語音共占 38%、視頻 11%、全模態數據 15%。其中包括兩種創新的全模態學習方式：

隱式全模態學習（Implicit Learning）

直接利用現有視頻自帶音頻的問答數據，讓模型在 “看視頻” 的同時 “聽聲音”。

顯式全模態學習（Explicit Learning）

通過 AI 單獨生成視覺和音頻模態專屬的描述，再由 LLM 進行交叉修正與融合，解決了單模態模型常見的 “幻覺”（如只看畫面誤判語義）。

實驗：打造全模態模型的關鍵洞察

[關鍵洞察 1] 單一模態打標 = 不靠譜！告別 “模態幻覺”

團隊發現，很多 AI 模型都有 “模態幻覺”：只看圖（視覺）：AI 看到一個深海機器人，可能會 “腦補” 說這是人類高科技的勝利。只聽聲（音頻）：AI 聽到旁白說 “地球最深處”，可能會 “瞎猜” 說這是關于地心的紀錄片。因此一個集成了兩種模態的聯合字幕方法對于全面理解至關重要。

[關鍵洞察 2] 1 + 1 > 2！當聽覺 “點亮” 視覺

加上音頻，模型真的變強了嗎？答案是肯定的！團隊發現，聲音為視覺提供了全新的信息維度，音視頻聯合學習能顯著提高視頻的理解能力。只用視覺 (Visual Alone) 視覺 + 音頻 (隱式學習 IL) 視覺 + 音頻 + 全模態數據引擎 (顯式學習 EL) 結果顯示 (見下表)，每增加一步，性能都在飆升！特別是加入了數據引擎的 “顯式學習” 后，模型性能在多個基準上都實現了巨大飛躍。

[關鍵洞察 3] 王牌對王牌：當 OmniVinci 遇上 “強化學習”

基礎模型已經這么強了，還能再進化嗎？能！通過強化學習 (RL)！

音頻，讓強化學習 “如虎添翼”！團隊在使用 GRPO 強化學習框架時發現了一個 “隱藏 Buff”：只給 AI 看視頻（視覺）去訓練，遠不如 “邊看邊聽”（視聽結合）的效果好！如圖所示，加入音頻后，模型的收斂速度更快。

強強對決，OmniVinci 更勝一籌！在這個多模態 RL 框架下，OmniVinci 和 Qwen2.5-Omni 都能獲益。但是，OmniVinci 憑借更強的基礎性能和指令跟隨能力，在 15 步內就超越了 Qwen2.5-Omni 的準確率，并且格式獎勵收斂速度快了 2.7 倍！最終，經過 RL 訓練的 OmniVinci+RL，在所有全模態基準上再次實現全面提升！

不止是 SOTA，是全能 Agent

跑分只是基礎，真正的全模態 AI，必須能在真實世界 “大顯身手”。

OmniVinci 做到了。研究團隊用它測試了 N 個真實場景，效果非常好：

場景一：聯合視聽感知

你給它一段播客視頻，它不僅能看懂主持人和嘉賓的外形，更能 “聽懂” 他們討論的復雜話題。

場景二：語音轉錄 + 翻譯

你對它說話，它能瞬間轉錄成文字。

場景三：全語音交互

你用語音問：“這個演講者的公司使命是啥？”

它立刻用語音答：“他的公司使命是在火星上建立一個自我維持的文明。”

場景四：指揮機器人，直接 “張嘴說”！

OmniVinci 能直接聽懂你的語音指令（比如 “進入臥室，在床腳站住” ），然后規劃下一步行動。這才是真正實用的人機交互！

場景五：AI 看懂 “專家會診”！

醫生一邊滾動查看 CT 影像，一邊用嘴說出診斷（“這里我們看到一些肺大皰和相關的纖維化改變...” ）。OmniVinci 能同時 “看” CT 影像的動態變化，并 “聽” 懂醫生的專業解說，準確回答 “肺部紋理隨時間如何變化？” 這類高難度問題，在醫療 AI 上大展身手！

場景六：AI “全能解說” 體育比賽！

看網球比賽，AI 不再是 “睜眼瞎”。OmniVinci 能同步理解激烈的視覺動作（誰在發球、誰贏了這一分）和解說員的評論。在預測得分結果和回合長度上，它完勝 Qwen2.5-Omni。更重要的是，量化后在消費級顯卡 GeForce RTX 4090 上它延遲極低，完全可以用于電視直播！

這不就是賈維斯嗎？

OmniVinci 的出現，可能不僅僅是一個新 SOTA 9B 全模態模型的誕生，它更代表了一種全新的 AI 范式。

未來，AI 不再是割裂的 “視覺模型” 或 “音頻模型”，而是統一的 “全模態感知系統”。

更低的訓練成本，意味著更快的迭代和更廣泛的應用。從能聽懂指令的機器人，到能理解醫生口述和 CT 影像的醫療 AI，再到監控異常聲音和畫面的智能工廠，一個更智能的未來，正在加速到來。

英偉達這次，又交出了一份驚艷的答卷。

對于 OmniVinci，你怎么看？你最期待它被用在什么地方？歡迎在評論區留下你的 “神預言”！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.