![]()
新智元報道
編輯:LRST
【新智元導讀】在NeurIPS 2025論文中,來自「南京理工大學、中南大學、南京林業大學」的研究團隊提出了一個極具突破性的框架——VIST(Vision-centric Token Compression in LLM),為大語言模型的長文本高效推理提供了全新的「視覺解決方案」。值得注意的是,這一思路與近期引起廣泛關注的DeepSeek-OCR的核心理念不謀而合。
在處理短文本時,大語言模型(LLM)已經表現出驚人的理解和生成能力。但現實世界中的許多任務——如長文檔理解、復雜問答、檢索增強生成(RAG)等——都需要模型處理成千上萬甚至幾十萬長度的上下文。
與此同時,模型參數規模也從數十億一路飆升至萬億級別。
在「上下文長度激增」與「模型參數量膨脹」的雙重挑戰下,Token壓縮不再是優化項,而是必需品。
若不能有效縮減輸入規模,即便最強大的大語言模型,也難以高效處理我們需要它分析的海量信息。
南京理工大學、中南大學、南京林業大學的研究人員提出VIST(Vision-centric Token Compression in LLM)框架,正是為了解決這一痛點。
![]()
論文鏈接:https://arxiv.org/abs/2502.00791
研究團隊早在一年多以前NeurIPS 2024就開始探索——如何讓模型像人類一樣,以視覺的方式更高效地理解長文本。
![]()
論文鏈接:https://arxiv.org/pdf/2406.02547
人類閱讀文章時,不會逐字讀完每一個詞。
「的」「了」「和」這些功能性高頻詞,幾乎是被大腦自動略過的。真正讓我們停下來的,是那些承載意義的低頻詞——名詞、動詞、數字等。
VIST 的核心思想,就是讓大模型也具備這種「選擇性閱讀」能力。
它設計了一種模仿人類「快–慢閱讀通路(Slow–Fast Reading Circuit)」的視覺化壓縮機制,讓大模型在理解長文本時,既能快速掃讀,又能深入思考:
快路徑(Fast Path):將遠處、相對次要的上下文渲染為圖像,由一個凍結的輕量級視覺編碼器快速提取顯著性語義;
慢路徑(Slow Path):將關鍵的近處文本直接輸入 LLM,用于深層推理與語言生成。
這種「視覺+語言」的雙通道協作,就像人類的眼睛與大腦——一邊掃視全局,一邊聚焦要點,深度思考。
VIST讓模型真正具備了「像人一樣速讀」的能力。
![]()
憑借這一設計,在處理相同文本內容時,VIST所需的視覺Token數量僅為傳統文本分詞所需Token數量的56%,內存減少了50%。
用「視覺壓縮」解鎖長文本理解
早期的LLM主要通過tokenizer把文本拆分的離散token輸入給LLM去處理,這種范式帶來了很多好處如高度語義化。
但是已有研究發現,經過大規模圖文配對數據預訓練,CLIP等視覺編碼器能夠自發掌握 OCR 能力,這使它們可以直接理解文本圖像內容,為長文本的視覺化處理提供了強大工具。
VIST則借鑒了人類高效閱讀的技巧,提出了一種全新的快–慢視覺壓縮框架,用視覺方式處理長文本,讓模型既能快速掃讀,又能深度理解。
快路徑(Fast Path)
將次要的長距離上下文渲染成圖像,由輕量級視覺編碼器處理;
通過 Resampler 將視覺特征進一步壓縮為4倍;
壓縮后的視覺特征再通過cross-attention與LLM的主輸入整合。
慢路徑(Slow Path)
對近處或核心文本直接交給LLM處理,進行深度推理和語言生成。
這種「掃視遠處,專注近處」的方式,模擬了人類閱讀的自然策略,讓模型在長文本場景下既高效又精準。
![]()
概率感知視覺增強
教模型學會略讀
雖然視覺編碼器(如 CLIP)非常強大,但它們主要在自然圖像上訓練,對于渲染文本的理解能力有限。而且,長文本中往往充斥大量冗余信息,如果不加選擇地處理,浪費算力,還會被干擾得抓不住重點。
為此,VIST引入了一個巧妙的機制——概率感知視覺增強(PVE, Probability-informed Visual Enhancement),教模型「略讀」,抓住關鍵信息,忽略冗余詞。
![]()
在訓練中,PVE采用基于頻率的屏蔽策略(Frequency-based Masking Strategy)把高頻但信息量低的詞(如英文中的 「the」、「with」)掩碼而重點保留低頻、高信息量詞如名詞、動詞、數字等核心內容。
這些經過語義優化的文本嵌入(embeddings)有效指導Resampler從文本圖像中提取最重要的語義信息,讓視覺壓縮模塊更高效、更精準。
視覺壓縮的極大潛力
在開放域問答(Open-domainQA)任務以及11 個 In-Context Learning(ICL)基準任務上,VIST 顯著優于基于文本編碼器的壓縮方法 CEPE。
即便在極端條件下——所有篇章僅通過視覺編碼器處理——VIST仍能在開放域問答任務中達到與TinyLlama相當的性能,充分顯示了視覺壓縮在長文本處理中的可靠性。
此外,VIST在處理相同文本內容時,所需視覺 Token 數量比傳統文本 Token 少56%(壓縮比約為2.3,從 1024 個文本Token壓縮到448個視覺 Token),同時顯存使用減少50%,極大提高了計算效率。
![]()
![]()
![]()
讓大模型「用眼睛讀文字」
VIST利用輕量級視覺編碼器,將冗長的上下文信息壓縮處理,為大語言模型提供了一條高效、低成本的新路徑。
更妙的是,視覺編碼器還能充當視覺文本分詞器(Visual Text Tokenization),帶來四大優勢:
1. 簡化分詞流程傳統文本分詞器依賴復雜規則和固定詞表,通常涉及近十步人工預處理(如小寫化、標點符號處理、停用詞過濾等)。
視覺編碼器直接將渲染后的文本視作圖像輸入,無需繁瑣預處理,處理流程更直接高效。
2. 突破詞表瓶頸傳統分詞器在多語言環境下容易受詞表限制影響性能,而視覺編碼器無需詞表,統一處理多種語言文本,大幅降低嵌入矩陣和輸出層的計算與顯存開銷。
3. 對字符級噪聲更魯棒視覺編碼器關注整體視覺模式,而非單個 Token 匹配,因此對拼寫錯誤或低級文本攻擊具備天然抵抗力。
4. 多語言高效性盡管本文主要針對英文,視覺文本分詞器在其他語言中同樣高效:與傳統文本分詞相比,可減少62%的日文Token、78%的韓文Token、27%的中文Token,在處理長文本時優勢尤為顯著。
結語與未來展望
VIST 展示了「視覺 + 語言」協作在大模型長文本理解中的巨大潛力:
它讓大模型能夠「像人一樣讀」,快速掃視冗余信息,同時專注于關鍵內容;
它為多語言、長文本、甚至多模態場景提供了高效處理方案。
未來,視覺驅動的 Token 壓縮可能會成為長上下文 LLM 的標準組件。 隨著模型規模不斷增長,這種「先看再讀」的策略,將幫助大模型在保證理解能力的同時,大幅降低計算成本,為多模態智能理解鋪平道路。
參考資料:
https://arxiv.org/abs/2502.00791
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.