當下主流的視覺語言模型(Vision-Language Models, VLM),通常都采用這樣一種設計思路:將預訓練的視覺編碼器與大語言模型通過投影層拼接起來。這種模塊化架構成就了當前 VLM 的輝煌,但也帶來了一系列新的問題——多階段訓練復雜、組件間語義對齊成本高,不同模塊的擴展規律難以協調。
由南洋理工大學 S-Lab 助理教授劉子緯領導的聯合團隊最近提出了 NEO,試圖用另一種思路解決這些問題。這項工作試圖回答一個根本性問題:如果不依賴預訓練的視覺編碼器,能否構建出與頂級模塊化 VLM 相媲美的原生統一架構?
![]()
圖丨相關論文(來源:arXiv)
在傳統方法中,視覺編碼器通常基于 CLIP 或 SigLIP 等預訓練模型,這些編碼器雖然在視覺理解上表現出色,但其固有的語義偏置會限制模型在特定任務上的靈活性。
更重要的是,視覺編碼器和語言模型之間存在天然的“代溝”——前者采用雙向注意力機制來捕捉圖像中的全局關系,后者則使用因果注意力進行文本的自回歸生成。這種架構上的不匹配使得多階段訓練不僅復雜,還需要大量的對齊數據來彌合兩個模態之間的鴻溝。
原生 VLM 的探索并非由 NEO 首創。早期的 Fuyu、EVE 就開啟了這條路,但它們所面臨的一個重要問題是:如何在語言模型內部高效構建視覺表征?這個過程往往效率低下、訓練不穩定,甚至會破壞原有的語言能力。后續研究嘗試用知識蒸餾、混合訓練數據或專家系統來緩解,但始終未能觸及核心問題。NEO 的團隊認為,問題的根源在于沒有從根本上為多模態重新設計模型的基礎組件。
NEO 團隊的方案是構建一個統一的原生基元(Native VLM Primitive),這個基元同時具備視覺編碼、跨模態對齊和多模態推理的能力。具體而言,NEO 引入了三項關鍵創新:多頭原生注意力(Multi-Head Native Attention, MHNA)、原生旋轉位置編碼(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的兩階段架構設計。
![]()
圖丨原生視覺-語言框架概覽(來源:arXiv)
在注意力機制的設計上,NEO 采用了一種混合策略。對于圖像 token,模型使用雙向注意力,允許每個視覺 token 與圖像中的所有其他 token 進行交互,這保留了視覺編碼器捕捉全局空間關系的能力。而對于文本 token,則沿用傳統的因果注意力,確保自回歸生成的有效性。這種“幀級雙向、詞級因果”的混合注意力機制,讓 NEO 能夠在同一個統一架構中同時處理視覺的全局理解和語言的序列生成。
位置編碼是 NEO 的另一個創新點。傳統 VLM 在處理圖像和文本時,往往簡單地將預訓練 LLM 的一維旋轉位置編碼(Rotary Position Embeddings, RoPE)擴展到二維或三維空間,但這種做法會破壞 LLM 原有的建模模式,損害其語言能力。NEO 采用的 Native-RoPE 則完全解耦了時間(T)、高度(H)和寬度(W)三個維度的索引和頻率分配。
![]()
圖丨NEO 框架(來源:arXiv)
對于文本,模型保持原有的時間維度索引,而將高度和寬度維度的索引置零;對于圖像,每個視覺 token 擁有固定的時間索引和獨特的空間坐標。這種設計不僅保持了與預訓練 LLM 的兼容性,還能更好地捕捉圖像中的局部語義依賴關系。
在訓練策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分離式預訓練。Pre-Buffer 負責從頭學習視覺感知,而 Post-LLM 則繼承預訓練 LLM 的強大語言能力和推理能力。在預訓練階段,Post-LLM 的參數被凍結,僅訓練 Pre-Buffer 和新增的 Query-Key 頭維度及歸一化層。
這種設計既保護了 LLM 的語言知識不被低質量的圖像-文本對破壞,又允許 Pre-Buffer 在大規模視覺數據上進行充分的學習。到了中期訓練和監督微調階段,Pre-Buffer 和 Post-LLM 被合并為一個統一的單體架構,模型能夠自主地在編碼、對齊和推理之間分配計算資源。
此外,Pre-Buffer 本身具有可復用性。這個經過大規模視覺數據預訓練的模塊可以作為開源資源,幫助后續研究者以更低的成本將新的 LLM 適配為 VLM。
值得注意的是,NEO 在訓練效率上展現出令人驚訝的表現。整個預訓練階段僅使用了 3.45 億圖文對,這個數據規模遠小于主流模塊化 VLM 動輒數十億的訓練數據。在中期訓練階段,NEO 使用 4000 萬樣本進行視覺-語言對齊的強化;監督微調階段則使用約 400 萬條高質量指令數據。總計不到 4 億的訓練樣本,NEO-2.2B 和 NEO-9B 兩個版本就達到了與頂級模塊化 VLM 相當的性能水平。
![]()
圖丨與其他模塊化和原生 VLM 的基準測試比較(來源:arXiv)
在多項標準評估基準上,NEO 的表現出色。在 MMMU(多學科多模態理解與推理)測試中,NEO-2.2B 獲得了 48.6 分,超過了 InternVL2.5(43.6 分)和 HoVLE(32.2 分)等原生 VLM 競品。
在文檔理解任務如 AI2D 和 DocVQA 上,NEO-2.2B 分別達到 80.1 分和 89.9 分,接近甚至超過了一些采用強化學習的模塊化模型。更大的 NEO-9B 版本在多個基準上的表現更加出色,在 MMBench 上獲得 82.1 分,在 AI2D 上達到 83.1 分,與使用數十億訓練數據的 Qwen2-VL 和 InternVL2.5 處于同一競爭梯隊。
當然,NEO 也還存在一些局限性。在知識密集型和 OCR(光學字符識別)重度任務上,如 MMMU、InfoVQA 和 TextVQA 等測試中,NEO 的表現相對落后。NEO-9B 在某些 OCR 任務如 DocVQA 和 InfoVQA 上的表現甚至不如 NEO-2.2B,這表明當前的訓練語料庫在這些特定領域可能存在不足。
研究團隊在論文中表示,這些局限性主要源于訓練數據的規模和質量限制,而非架構本身的問題。如果能夠獲得更大規模、更高質量的訓練數據,NEO 的潛力還有很大的提升空間。
參考資料:
1.https://arxiv.org/pdf/2510.14979v1
2.https://github.com/EvolvingLMMs-Lab/NEO
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.