<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      高效訓練新標桿!華人開源原生VLM-NEO,以少數據追平頂級模型

      0
      分享至

      當下主流的視覺語言模型(Vision-Language Models, VLM),通常都采用這樣一種設計思路:將預訓練的視覺編碼器與大語言模型通過投影層拼接起來。這種模塊化架構成就了當前 VLM 的輝煌,但也帶來了一系列新的問題——多階段訓練復雜、組件間語義對齊成本高,不同模塊的擴展規律難以協調。

      由南洋理工大學 S-Lab 助理教授劉子緯領導的聯合團隊最近提出了 NEO,試圖用另一種思路解決這些問題。這項工作試圖回答一個根本性問題:如果不依賴預訓練的視覺編碼器,能否構建出與頂級模塊化 VLM 相媲美的原生統一架構?


      圖丨相關論文(來源:arXiv)

      在傳統方法中,視覺編碼器通常基于 CLIP 或 SigLIP 等預訓練模型,這些編碼器雖然在視覺理解上表現出色,但其固有的語義偏置會限制模型在特定任務上的靈活性。

      更重要的是,視覺編碼器和語言模型之間存在天然的“代溝”——前者采用雙向注意力機制來捕捉圖像中的全局關系,后者則使用因果注意力進行文本的自回歸生成。這種架構上的不匹配使得多階段訓練不僅復雜,還需要大量的對齊數據來彌合兩個模態之間的鴻溝。

      原生 VLM 的探索并非由 NEO 首創。早期的 Fuyu、EVE 就開啟了這條路,但它們所面臨的一個重要問題是:如何在語言模型內部高效構建視覺表征?這個過程往往效率低下、訓練不穩定,甚至會破壞原有的語言能力。后續研究嘗試用知識蒸餾、混合訓練數據或專家系統來緩解,但始終未能觸及核心問題。NEO 的團隊認為,問題的根源在于沒有從根本上為多模態重新設計模型的基礎組件。

      NEO 團隊的方案是構建一個統一的原生基元(Native VLM Primitive),這個基元同時具備視覺編碼、跨模態對齊和多模態推理的能力。具體而言,NEO 引入了三項關鍵創新:多頭原生注意力(Multi-Head Native Attention, MHNA)、原生旋轉位置編碼(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的兩階段架構設計。


      圖丨原生視覺-語言框架概覽(來源:arXiv)

      在注意力機制的設計上,NEO 采用了一種混合策略。對于圖像 token,模型使用雙向注意力,允許每個視覺 token 與圖像中的所有其他 token 進行交互,這保留了視覺編碼器捕捉全局空間關系的能力。而對于文本 token,則沿用傳統的因果注意力,確保自回歸生成的有效性。這種“幀級雙向、詞級因果”的混合注意力機制,讓 NEO 能夠在同一個統一架構中同時處理視覺的全局理解和語言的序列生成。

      位置編碼是 NEO 的另一個創新點。傳統 VLM 在處理圖像和文本時,往往簡單地將預訓練 LLM 的一維旋轉位置編碼(Rotary Position Embeddings, RoPE)擴展到二維或三維空間,但這種做法會破壞 LLM 原有的建模模式,損害其語言能力。NEO 采用的 Native-RoPE 則完全解耦了時間(T)、高度(H)和寬度(W)三個維度的索引和頻率分配。


      圖丨NEO 框架(來源:arXiv)

      對于文本,模型保持原有的時間維度索引,而將高度和寬度維度的索引置零;對于圖像,每個視覺 token 擁有固定的時間索引和獨特的空間坐標。這種設計不僅保持了與預訓練 LLM 的兼容性,還能更好地捕捉圖像中的局部語義依賴關系。

      在訓練策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分離式預訓練。Pre-Buffer 負責從頭學習視覺感知,而 Post-LLM 則繼承預訓練 LLM 的強大語言能力和推理能力。在預訓練階段,Post-LLM 的參數被凍結,僅訓練 Pre-Buffer 和新增的 Query-Key 頭維度及歸一化層。

      這種設計既保護了 LLM 的語言知識不被低質量的圖像-文本對破壞,又允許 Pre-Buffer 在大規模視覺數據上進行充分的學習。到了中期訓練和監督微調階段,Pre-Buffer 和 Post-LLM 被合并為一個統一的單體架構,模型能夠自主地在編碼、對齊和推理之間分配計算資源。

      此外,Pre-Buffer 本身具有可復用性。這個經過大規模視覺數據預訓練的模塊可以作為開源資源,幫助后續研究者以更低的成本將新的 LLM 適配為 VLM。

      值得注意的是,NEO 在訓練效率上展現出令人驚訝的表現。整個預訓練階段僅使用了 3.45 億圖文對,這個數據規模遠小于主流模塊化 VLM 動輒數十億的訓練數據。在中期訓練階段,NEO 使用 4000 萬樣本進行視覺-語言對齊的強化;監督微調階段則使用約 400 萬條高質量指令數據。總計不到 4 億的訓練樣本,NEO-2.2B 和 NEO-9B 兩個版本就達到了與頂級模塊化 VLM 相當的性能水平。


      圖丨與其他模塊化和原生 VLM 的基準測試比較(來源:arXiv)

      在多項標準評估基準上,NEO 的表現出色。在 MMMU(多學科多模態理解與推理)測試中,NEO-2.2B 獲得了 48.6 分,超過了 InternVL2.5(43.6 分)和 HoVLE(32.2 分)等原生 VLM 競品。

      在文檔理解任務如 AI2D 和 DocVQA 上,NEO-2.2B 分別達到 80.1 分和 89.9 分,接近甚至超過了一些采用強化學習的模塊化模型。更大的 NEO-9B 版本在多個基準上的表現更加出色,在 MMBench 上獲得 82.1 分,在 AI2D 上達到 83.1 分,與使用數十億訓練數據的 Qwen2-VL 和 InternVL2.5 處于同一競爭梯隊。

      當然,NEO 也還存在一些局限性。在知識密集型和 OCR(光學字符識別)重度任務上,如 MMMU、InfoVQA 和 TextVQA 等測試中,NEO 的表現相對落后。NEO-9B 在某些 OCR 任務如 DocVQA 和 InfoVQA 上的表現甚至不如 NEO-2.2B,這表明當前的訓練語料庫在這些特定領域可能存在不足。

      研究團隊在論文中表示,這些局限性主要源于訓練數據的規模和質量限制,而非架構本身的問題。如果能夠獲得更大規模、更高質量的訓練數據,NEO 的潛力還有很大的提升空間。

      參考資料:

      1.https://arxiv.org/pdf/2510.14979v1

      2.https://github.com/EvolvingLMMs-Lab/NEO

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米通話將于12月3日停止服務

      小米通話將于12月3日停止服務

      極目新聞
      2025-11-05 21:05:11
      許家印干的最虎的一件事就是填海造陸,花費上千億搞個海南海花島

      許家印干的最虎的一件事就是填海造陸,花費上千億搞個海南海花島

      探史
      2025-11-04 18:54:50
      民進黨當局稱大陸未來可能全球通緝“臺獨”頑固分子,國臺辦回應

      民進黨當局稱大陸未來可能全球通緝“臺獨”頑固分子,國臺辦回應

      極目新聞
      2025-11-05 11:32:07
      偉大1-0!亞洲球隊逆襲:歐冠歷史首勝 僅建隊11年 現場萬人狂歡

      偉大1-0!亞洲球隊逆襲:歐冠歷史首勝 僅建隊11年 現場萬人狂歡

      侃球熊弟
      2025-11-06 03:41:47
      “父親偷看女兒洗澡”后續:爸爸揭露真相,女孩追悔莫及

      “父親偷看女兒洗澡”后續:爸爸揭露真相,女孩追悔莫及

      觀世記
      2025-11-05 20:19:25
      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新京報
      2025-11-05 18:11:09
      買淀粉腸的學生,搶鑰匙的校長,撒謊的通報

      買淀粉腸的學生,搶鑰匙的校長,撒謊的通報

      空瓶子
      2025-11-04 18:18:24
      知名男演員,傳來喜訊!

      知名男演員,傳來喜訊!

      魯中晨報
      2025-11-06 07:03:11
      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      第一軍情
      2025-11-05 15:40:03
      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      上觀新聞
      2025-11-05 17:59:14
      向全世界展示,中國是如何救援空間站宇航員的,美俄都沒有這能力

      向全世界展示,中國是如何救援空間站宇航員的,美俄都沒有這能力

      講者普拉斯
      2025-11-05 20:51:42
      網紅戶晨風被封禁,央視披露詳情:以“蘋果人安卓人”惡意制造對立,收割流量牟利,突破監管紅線

      網紅戶晨風被封禁,央視披露詳情:以“蘋果人安卓人”惡意制造對立,收割流量牟利,突破監管紅線

      極目新聞
      2025-11-05 16:40:03
      杭州網紅“大逃亡”,網紅之都跌落神壇!

      杭州網紅“大逃亡”,網紅之都跌落神壇!

      財經三分鐘pro
      2025-11-05 13:58:59
      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      中國足球的那些事兒
      2025-11-05 19:46:13
      管不住下半身!網傳長沙某三甲醫院醫生不雅視頻曝光,引發關注…

      管不住下半身!網傳長沙某三甲醫院醫生不雅視頻曝光,引發關注…

      火山詩話
      2025-11-05 17:31:47
      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      小喬古裝漢服
      2025-09-29 07:55:03
      烏克蘭公布“罕見”作戰畫面!外媒:烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

      烏克蘭公布“罕見”作戰畫面!外媒:烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

      環球網資訊
      2025-11-05 16:09:59
      國乒教練調整內幕揭曉,王勵勤棄用兩位功臣?改革力度超出預期

      國乒教練調整內幕揭曉,王勵勤棄用兩位功臣?改革力度超出預期

      海闊山遙YAO
      2025-11-05 11:54:46
      網友好奇,國外全球反詐論壇我們為什么不參加?評論區一言難盡

      網友好奇,國外全球反詐論壇我們為什么不參加?評論區一言難盡

      眼光很亮
      2025-11-05 10:40:13
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      2025-11-06 07:59:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15823文章數 514267關注度
      往期回顧 全部

      科技要聞

      何小鵬連發四大黑科技!人形機器人走貓步上臺

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      家居
      房產
      公開課
      軍事航空

      今年一定要擁有這件大衣,復古又時髦!

      家居要聞

      別樣府院 暢享詩意生活

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 爆乳2把你榨干哦ova在线观看 | 国产国产精品人体在线视| 熟女少妇精品一区二区 | 国产精品熟女孕妇一区二区| 国产无遮挡真人免费视频| 久久精品一偷一偷国产| 黑人玩弄人妻中文在线| 丰满人妻熟妇乱又伦精品软件| 日韩av在线不卡一区二区| 影音先锋啪啪av资源网站| 18禁一区二区每日更新| 精品一区二区亚洲国产| 色九月亚洲综合网| 亚洲av成人网在线观看| 妺妺窝人体色www看美女| 伊人精品成人久久综合97| 久久精品无码中文字幕| 亚洲综合精品一区二区三区| 黑森林福利视频导航| 国产美女被遭强高潮免费一视频| 人妻精品久久无码区| 欧美日本中文| 国产免费一区二区三区在线观看| 久久亚洲欧美日本精品| 精品日韩亚洲AV无码| 99RE8这里有精品热视频| 色综合网天天综合色中文| 韩国三级+mp4| 福利成人午夜国产一区| 无码综合天天久久综合网| 久青草视频在线观看免费| 性欧美乱熟妇xxxx白浆| 日本一区二区三区东京热| 东北女人毛多水多牲交视频| 干老熟女干老穴干老女人| 欧美国产日产一区二区| 国产中文字幕精品免费| 亚洲国产精品线观看不卡| 熟妇好大好深好满好爽| 国产欧美精品一区aⅴ影院| 性欧美videofree高清精品|