DeepSeek 開源新成果了。
這次他們發布了一個名為 DeepSeek-OCR 的模型,嘗試用一種新穎的“上下文光學壓縮”方法,來解決當前大語言模型處理長篇文檔時效率不高、成本過高的問題。
![]()
(來源:GitHub)
我們知道,大語言模型在處理幾千字、幾萬字甚至更長的文本時,計算量會急劇增加,對算力和內存的要求非常高。這成了限制它們在很多需要處理海量文檔場景中應用的一個瓶頸。
![]()
圖丨流行視覺語言模型中的典型視覺編碼器(來源:GitHub)
DeepSeek-OCR 的思路,就是想繞開這個難題。DeepSeek 團隊指出,人類在閱讀文檔時,視覺系統扮演了至關重要的角色,能夠快速捕捉和壓縮頁面布局、段落結構等信息。那么,機器是否也能模擬這一過程?DeepSeek-OCR 正是對這一設想的初步探索。
它的核心想法是,能不能不直接把長長的文字序列喂給語言模型?而是先把這些文字內容渲染成一張圖片,然后利用高效的視覺模型對這張圖片進行壓縮和理解,最后只把壓縮后的、數量少得多的視覺特征交給語言模型去“解壓”和處理。
因此,它不只是個 OCR 工具,更像是一個為大模型打造的“視覺預處理器”,一個能把成千上萬個文本 token 高效打包成幾百個視覺 token 的壓縮引擎。
DeepSeek-OCR 的架構設計主要由兩大核心組件構成:DeepEncoder(深度編碼器)和 DeepSeek-3B-MoE-A570M(一個擁有 30 億參數、激活 5.7 億參數的混合專家模型)解碼器。
DeepEncoder 是整個系統的關鍵所在。它的設計目標在于,在處理高分辨率輸入圖像的同時,保持較低的激活內存,并實現極高的壓縮比。為了達到這一目的,DeepEncoder 融合了兩種成熟的視覺模型架構:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力機制(window attention)見長,擅長處理局部細節,構成了編碼器的前半部分;后者則依賴密集的全局注意力機制(global attention),能夠捕獲整體知識信息。
兩者之間,通過一個 16 倍下采樣的卷積壓縮模塊進行橋接。一張高分辨率的文檔圖片輸入后,首先由 SAM 高效地處理海量、分散的視覺特征,然后這些特征在進入計算成本高昂的全局注意力網絡之前,被大幅壓縮。這一“先分后總、先粗后精”的設計,有效解決了高分辨率圖像處理中常見的內存溢出和 token 數量爆炸的問題。
![]()
圖丨 DeepSeek-OCR 的架構(來源:GitHub)
而解碼端則采用了 DeepSeek 自家的混合專家(Mixture-of-Experts, MoE)架構。MoE 模型通過將任務分發給不同的專家網絡,能夠在保持模型整體規模可控的前提下,實現強大的表達能力。在 DeepSeek-OCR 中,這個擁有約 5.7 億激活參數的解碼器,負責將 DeepEncoder 輸出的壓縮視覺 token“解壓”還原為精準的文本序列。
為了驗證這一新范式的有效性,DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基準上檢驗了其壓縮-解壓過程是否可靠且信息無損。在針對包含 600 到 1,300 個文本 token 的英文文檔測試中,DeepSeek-OCR 僅使用 64 或 100 個視覺 token 即可完成處理。數據顯示,當壓縮比(原始文本 token 數與所用視覺 token 數的比值)低于 10 倍時,模型的 OCR 解碼精度可保持在 97% 以上。即使在壓縮比達到 20 倍的情況下,準確率也依然能維持在 60% 左右。
![]()
(來源:GitHub)
在更側重實際應用場景的 OmniDocBench 測試中,DeepSeek-OCR 的表現同樣突出。相較于 GOT-OCR2.0(平均每頁使用 256 個 token)和 MinerU2.0(平均每頁使用超過 6000 個 token)等其他端到端模型,DeepSeek-OCR 在使用更少視覺 token 的情況下,整體性能達到了業界先進水平。
除了文本識別性能,DeepSeek-OCR 還具備較強的“深度解析”能力。這得益于其訓練數據中包含了圖表、化學分子式、幾何圖形等多樣化的視覺內容。因此,模型不僅能識別標準文本,還能對文檔中嵌入的復雜元素進行結構化解析。例如,它可以將報告中的圖表轉換為表格數據,將化學文獻中的分子式輸出為 SMILES 格式,或解析幾何圖形中的線段關系。這種超越傳統文本識別的能力,拓展了其在金融、科研、教育等專業領域的應用空間。
值得注意的是,DeepSeek 已將 DeepSeek-OCR 的核心代碼和模型權重開源,據其技術報告披露,在生產環境中,單張 A100-40G GPU 每日可處理超過 20 萬頁的文檔數據。
當然,作為一項探索性的工作,DeepSeek-OCR 目前也存在一些局限。報告指出,當壓縮比超過 10 倍后,模型性能會開始下降。這可能是因為長文檔的復雜布局在高度壓縮后信息損失增多,或是低分辨率圖像導致文本細節模糊。此外,雖然模型展現了對多種元素的解析能力,但在處理一些極端復雜的版面時,其性能仍有提升空間。
而且,OCR 任務雖然提供了清晰的壓縮-解壓縮映射和可量化的評估指標,但文檔識別與真實的多輪對話理解存在本質差異。前者主要考驗模型的感知和解碼能力,后者還涉及推理、記憶檢索、上下文關聯等更復雜的認知過程。
一份文檔的各段落間相對獨立,而對話的輪次間存在強依賴關系。將對話歷史光學化后,模型能否依然保持對早期關鍵信息的有效檢索,需要專門的“大海撈針”(needle-in-a-haystack)測試來驗證。技術報告坦言,他們計劃在未來進行數字文本與光學文本交錯的預訓練實驗,以及長上下文檢索準確性評估。
不過,DeepSeek-OCR 仍然是一個具有相當重要價值的工作,除了是一款性能出色的 OCR 工具,它還為視覺與語言兩種模態的深度融合提供了新的思路。過去,視覺和語言通常被作為獨立的輸入源來處理,而 DeepSeek-OCR 的實踐表明,兩者或許可以互為信息壓縮和解壓的媒介。基于這一范式,未來或可探索將多輪對話的歷史記錄動態渲染成圖像,以期用更低的成本管理更長的對話歷史。同樣,海量知識庫也有可能被壓縮成一系列緊湊的視覺索引,以提升模型的知識檢索效率。
參考資料:
1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.