<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      開源即爆火!英偉達重磅推出OmniVinci全模態大模型

      0
      分享至



      全模態智能,英偉達的下一步

      你是否想過,未來的 AI 將會是什么樣子?

      是只會打字的 Chat Bot,只會看圖的 VLM,還是只能分辨聲音的 ALM?

      都不是! 真正的智能,應該像我們人類一樣,能夠同時看、聽、說、寫,既能看懂世界的五彩斑斕,也能聽懂萬物的聲音。



      在不久前結束的英偉達華盛頓 GTC 大會上,老黃再三強調 “研究人員需要開源。開發者依賴開源。全球的公司,包括我們都離不開開源模型。開源非常,非常,重要。” 在老黃的號召下,全模態理解模型迎來重量級新玩家 —— 英偉達(NVIDIA)開源了 OmniVinci, 一款能理解多模態世界的全模態大語言模型(Omni-Modal LLM)。該模型實現了視覺、音頻、語言在同一潛空間(latent space)中的統一理解, 讓 AI 不僅能識別圖像、聽懂語音,還能推理、對話、生成內容。這個 9B 的視覺 - 語音理解全模態模型剛上線就爆火,一周時間 Huggingface 模型權重目前已經有超過10000次下載量!



      • 論文標題:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
      • 項目地址:https://github.com/NVlabs/OmniVinci
      • 論文地址:https://arxiv.org/abs/2510.15870
      • 開源模型:https://huggingface.co/nvidia/omnivinci

      秀翻全場!多模態理解性能全面超越



      和相近尺寸的全模態模型競品相比,OmniVinci 在多項常用多模態基準測試榜單中取得了顯著優勢,包括視頻 - 音頻跨模態理解任務(DailyOmni +19.05),音頻理解 (MMAR + 1.7),和視頻理解 (Video-MME +3.9),展現出卓越的全模態理解能力。更重要的是,OmniVinci 少用了近 6 倍的數據量實現了超越,展現了其架構和數據引擎的卓越效率。

      三大架構創新:讓視覺與聽覺在同一空間共鳴





      OmniVinci 不僅具備炸裂的榜單性能,其論文中通過大量科學實驗探索最優全模態模型架構的方法,而不是粗暴堆疊訓練數據,這種做法顯然更值得借鑒。想象一下,AI 看視頻時,畫面(視覺)和聲音(音頻)是兩條獨立的信息流。如果模型架構對此處理不好,AI 就會 “精神分裂”。而 OmniVinci 的目標就是讓它們完美同步,通過三項核心創新設計來實現:

      OmniAlignNet:跨模態語義對齊網絡

      這就像一個 “超級翻譯器”,讓模型在同一空間中 “看得見聲音,聽得懂畫面”。它創建了一個共享空間,通過對比學習 ,讓視覺信號和音頻信號能在這里用同一種 “語言” 無障礙交流,實現跨模態深度對齊。



      Temporal Embedding Grouping (TEG):時間嵌入分組機制

      將視覺幀與音頻信號按時間戳重組,使模型能跨模態感知事件的相對先后關系。AI 終于能搞清楚,是 “先開槍再有槍聲”,還是 “先有閃電再有雷聲”。它通過按時間戳分組,讓 AI 理解事件的先后順序 。



      Constrained Rotary Time Embedding (CRTE):受約束旋轉時間嵌入

      通過時間旋轉編碼,模型獲得絕對時間感知能力。AI 不僅知道 “先” 和 “后”,還知道這件事發生在視頻的第 5 秒,還是第 50 秒。



      有了這三板斧,OmniVinci 才真正擁有了準確感知視覺,音頻和時間流逝的能力。

      數據引擎:24M 多模態對話的背后





      模型強度離不開數據支撐。OmniVinci 團隊構建了一個龐大的全模態數據引擎(Omni-Modal Data Engine),共涵蓋2400 萬條多模態對話樣本,覆蓋圖像、視頻、音頻、語音四大領域。數據分布中,圖像占 36%、音頻與語音共占 38%、視頻 11%、全模態數據 15%。其中包括兩種創新的全模態學習方式:

      • 隱式全模態學習(Implicit Learning)

      直接利用現有視頻自帶音頻的問答數據,讓模型在 “看視頻” 的同時 “聽聲音”。

      • 顯式全模態學習(Explicit Learning)

      通過 AI 單獨生成視覺和音頻模態專屬的描述,再由 LLM 進行交叉修正與融合,解決了單模態模型常見的 “幻覺”(如只看畫面誤判語義)。

      實驗:打造全模態模型的關鍵洞察


      [關鍵洞察 1] 單一模態打標 = 不靠譜!告別 “模態幻覺”

      團隊發現,很多 AI 模型都有 “模態幻覺”: 只看圖(視覺):AI 看到一個深海機器人,可能會 “腦補” 說這是人類高科技的勝利 。只聽聲(音頻):AI 聽到旁白說 “地球最深處”,可能會 “瞎猜” 說這是關于地心的紀錄片 。因此一個集成了兩種模態的聯合字幕方法對于全面理解至關重要。



      [關鍵洞察 2] 1 + 1 > 2!當聽覺 “點亮” 視覺

      加上音頻,模型真的變強了嗎?答案是肯定的! 團隊發現,聲音為視覺提供了全新的信息維度,音視頻聯合學習能顯著提高視頻的理解能力 。只用視覺 (Visual Alone) 視覺 + 音頻 (隱式學習 IL) 視覺 + 音頻 + 全模態數據引擎 (顯式學習 EL) 結果顯示 (見下表),每增加一步,性能都在飆升!特別是加入了數據引擎的 “顯式學習” 后,模型性能在多個基準上都實現了巨大飛躍。



      [關鍵洞察 3] 王牌對王牌:當 OmniVinci 遇上 “強化學習”

      基礎模型已經這么強了,還能再進化嗎? 能!通過強化學習 (RL)!

      音頻,讓強化學習 “如虎添翼”! 團隊在使用 GRPO 強化學習框架時發現了一個 “隱藏 Buff”: 只給 AI 看視頻(視覺)去訓練,遠不如 “邊看邊聽”(視聽結合)的效果好! 如圖所示,加入音頻后,模型的收斂速度更快。



      強強對決,OmniVinci 更勝一籌! 在這個多模態 RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能獲益 。但是,OmniVinci 憑借更強的基礎性能和指令跟隨能力,在 15 步內就超越了 Qwen2.5-Omni 的準確率,并且格式獎勵收斂速度快了 2.7 倍 ! 最終,經過 RL 訓練的 OmniVinci+RL,在所有全模態基準上再次實現全面提升!





      不止是 SOTA,是全能 Agent

      跑分只是基礎,真正的全模態 AI,必須能在真實世界 “大顯身手”。

      OmniVinci 做到了。研究團隊用它測試了 N 個真實場景,效果非常好 :

      場景一:聯合視聽感知

      你給它一段播客視頻,它不僅能看懂主持人和嘉賓的外形,更能 “聽懂” 他們討論的復雜話題。



      場景二:語音轉錄 + 翻譯

      你對它說話,它能瞬間轉錄成文字。



      場景三:全語音交互

      你用語音問:“這個演講者的公司使命是啥?”

      它立刻用語音答:“他的公司使命是在火星上建立一個自我維持的文明。”



      場景四:指揮機器人,直接 “張嘴說”!

      OmniVinci 能直接聽懂你的語音指令(比如 “進入臥室,在床腳站住” ),然后規劃下一步行動。這才是真正實用的人機交互!



      場景五:AI 看懂 “專家會診”!

      醫生一邊滾動查看 CT 影像,一邊用嘴說出診斷(“這里我們看到一些肺大皰和相關的纖維化改變...” ) 。OmniVinci 能同時 “看” CT 影像的動態變化 ,并 “聽” 懂醫生的專業解說 ,準確回答 “肺部紋理隨時間如何變化?” 這類高難度問題,在醫療 AI 上大展身手 !



      場景六:AI “全能解說” 體育比賽!

      看網球比賽,AI 不再是 “睜眼瞎”。OmniVinci 能同步理解激烈的視覺動作(誰在發球、誰贏了這一分)和解說員的評論。在預測得分結果和回合長度上,它完勝 Qwen2.5-Omni。更重要的是,量化后在消費級顯卡 GeForce RTX 4090 上它延遲極低,完全可以用于電視直播!





      這不就是賈維斯嗎?

      OmniVinci 的出現,可能不僅僅是一個新 SOTA 9B 全模態模型的誕生,它更代表了一種全新的 AI 范式。

      未來,AI 不再是割裂的 “視覺模型” 或 “音頻模型”,而是統一的 “全模態感知系統”。

      更低的訓練成本,意味著更快的迭代和更廣泛的應用。從能聽懂指令的機器人,到能理解醫生口述和 CT 影像的醫療 AI,再到監控異常聲音和畫面的智能工廠,一個更智能的未來,正在加速到來。

      英偉達這次,又交出了一份驚艷的答卷。

      對于 OmniVinci,你怎么看?你最期待它被用在什么地方?歡迎在評論區留下你的 “神預言”!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國共產黨中央軍事委員會副主席張升民簡歷

      中國共產黨中央軍事委員會副主席張升民簡歷

      上觀新聞
      2025-10-23 18:17:07
      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      裕豐娛間說
      2025-11-06 10:37:52
      廣東全運最佳引援?王睿澤爆砍27+11 關鍵時刻連續砍分點燃現場

      廣東全運最佳引援?王睿澤爆砍27+11 關鍵時刻連續砍分點燃現場

      狼叔評論
      2025-11-06 21:46:05
      央視提醒!AI盜播名人帶貨愈演愈烈,溫崢嶸怒懟“假自己”反被拉黑

      央視提醒!AI盜播名人帶貨愈演愈烈,溫崢嶸怒懟“假自己”反被拉黑

      阿廢冷眼觀察所
      2025-11-06 15:55:17
      女子遭鄰居群毆后續:警方介入,博主堅決不和解,打人者身份曝光

      女子遭鄰居群毆后續:警方介入,博主堅決不和解,打人者身份曝光

      娛樂看阿敞
      2025-11-05 17:40:04
      黑老大聶磊被執行死刑,死前笑著說出一句話,讓人細思極恐

      黑老大聶磊被執行死刑,死前笑著說出一句話,讓人細思極恐

      紀實錄
      2024-09-28 22:16:46
      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      風信子的花
      2025-10-24 23:59:39
      《棕眼之謎》好評如潮,追3集后,我想說:國產懸疑劇尺度真敢拍

      《棕眼之謎》好評如潮,追3集后,我想說:國產懸疑劇尺度真敢拍

      娛樂圈筆娛君
      2025-11-06 15:21:45
      這種豐滿的腿,穿緊身瑜伽褲真的好看嗎?

      這種豐滿的腿,穿緊身瑜伽褲真的好看嗎?

      小喬古裝漢服
      2025-10-15 17:16:17
      暴跌99%!為挽回中國銷量,保時捷價格跌到35萬,大家會買賬嗎

      暴跌99%!為挽回中國銷量,保時捷價格跌到35萬,大家會買賬嗎

      涵豆說娛
      2025-11-06 10:43:43
      太突然!央視宣布撤檔!

      太突然!央視宣布撤檔!

      臺州交通廣播
      2025-11-05 20:31:05
      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      尼日爾撕毀4億美元合同,驅逐中國高管,我方暗藏后手,給它狠狠教訓

      詭譎怪談
      2025-04-30 23:32:55
      試播6集被叫停,30年前這部神劇,說透了中國三代人的命運

      試播6集被叫停,30年前這部神劇,說透了中國三代人的命運

      手工制作阿殲
      2025-10-30 11:33:32
      博士畢業于浙江大學,入職河南科技學院,青年教師以第一作者身份在一區Top期刊上發表研究論文

      博士畢業于浙江大學,入職河南科技學院,青年教師以第一作者身份在一區Top期刊上發表研究論文

      植物研究進展
      2025-11-06 23:18:35
      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      文雅筆墨
      2025-11-04 09:18:55
      26歲鐵衛坑慘巴薩:夏天剛簽5年長約 狀態卻斷崖式下滑

      26歲鐵衛坑慘巴薩:夏天剛簽5年長約 狀態卻斷崖式下滑

      球事百科吖
      2025-11-06 18:11:09
      硅谷已經不需要碼農了

      硅谷已經不需要碼農了

      華商韜略畢亞軍
      2025-11-06 18:36:51
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      老吳教育課堂
      2025-11-07 03:44:53
      耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現在看人還是“重影”

      耳光大賽曾有選手被擊倒后腦出血去世,最高獎金8萬美元 趙鴻剛被KO后戴墨鏡接受采訪:現在看人還是“重影”

      魯中晨報
      2025-11-06 06:55:29
      全新坦克400正式上市 售24.98萬元起

      全新坦克400正式上市 售24.98萬元起

      小怪吃美食
      2025-11-07 04:04:05
      2025-11-07 05:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      房產
      本地
      數碼
      公開課
      軍事航空

      房產要聞

      錨定居住新趨勢!廣佛新世界重構灣區“理想生活投資學”

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      數碼要聞

      蘋果Apple TV全新開場動畫幕后:相機結合玻璃Logo實拍

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲第一无码专区天堂| 亚洲av成人无网码天堂| 亚洲熟女乱色一区二区三区| 亚洲精品一区二区制服| 国产又色又爽又黄的网站免费| 久久香蕉国产线看观看怡红院妓院| 色老板精品视频在线观看| 日本一区三区高清视频| 91密桃精品国产91久久| 国产精品综合色区av| 亚洲国产精品成人av网| 国产精品福利中文字幕| 日韩有码精品中文字幕| 亚洲精品日韩中文字幕| 久久伊99综合婷婷久久伊| 日韩亚洲中文图片小说| 69精品丰满人妻无码视频a片| 亚洲精品久久国产高清| 国产精品99一区二区三区| 欧美丰满熟妇xxxx性| 国产成人8X人网站视频| 日韩区中文字幕在线观看| 电影在线观看+伦理片| 日本伊人色综合网| 一区二区三区无码视频免费福利 | 欧美熟妇乱子伦XX视频| 国产一区二区三区色噜噜| 日韩人妻无码一区二区三区99 | 三级国产在线观看| 婷婷五月综合激情| 密山市| 中文字幕亚洲资源网久久| 国产永久免费高清在线观看| 国产精品区一区第一页| 安新县| 亚洲国产成人精品区综合| 亚洲成在人线在线播放无码| 国产福利永久在线视频无毒不卡 | 国产高清自产拍av在线| 亚洲欧美日韩综合久久久| 97av麻豆蜜桃一区二区|