
DeepSeek 又整出新東西來了,只用到原本十分之一 token,就能存下幾乎一樣的文字信息,這壓縮比,香農看了都要流淚,馮·諾伊曼看了都要沉默。
更是直接把一堆老外給釣成了翹嘴。
![]()
![]()
![]()
![]()
昨天,DeepSeek 發布了新模型 DeepSeek-OCR,OCR 這東西咱們都熟悉,就是把圖片里的文字給識別出來。
![]()
經常用微信的差友應該知道,微信客戶端里的圖片,被咱們點開后,是可以直接復制文字的。
沒錯,這就是一種 OCR 技術的應用。
![]()
但是 DeepSeek 這次的 「技能 OCR」則是剛好相反,它可以把大量文字變成一張圖片,作為 AI 的“記憶載體”。
是的,用文字來存儲信息,已經不夠滿足它了。
過去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、還是 DeepSeek 過去的自己,在讀取數據的用的都是一種方式:文字,也就是平時常說的 token。
![]()
我們寫的 Prompt,會被轉換成一大堆的 token 給大模型,我們提供的參考資料,會被轉換成一大堆的 token 給大模型,就算是能識別圖像的多模態的大模型,也是要先把圖片轉換成了一段文字描述,來交給大模型來做辨認才行。
但文字 token 真的就是大模型理解世界的唯一方式么?
DeepSeek 決定試一試新的路子,畢竟,如果咱們把一張圖片和一段文字放在一起,前者明顯可以包含下更多的信息。
比如這個描述,就不夠全面
![]()
既然如此,那我們能不能直接用圖片來訓練大模型?
于是 DeepSeek 就開始整,結果發現這個用圖片訓練出來的模型,既中看,又中用。
一方面,它可以用更少的 token,來記住更多的內容。
在測試文檔理解能力的任務里,DeepSeek-OCR 只用了100 個視覺 token,就超過了需要 256 個 token 的 GOT-OCR 2.0。
再放狠點,它用不到 800 個視覺 token, 就吊打了平均要6000+ token的 MinerU 2.0。
![]()
這就意味著、當我們讓大模型開始使用圖像的這種方式來記住數據了之后,模型就有能力用更少的token資源,來取得更好的表達效果。
另外,DeepSeek-OCR 還支持多種分辨率和壓縮模式,來適應不同復雜度的文檔:
比如說一張只有圖片背景和標題文案的 PPT,可能只需要 64 個 視覺token 就足夠表示了。
如果這頁的文字內容比較多,那就會自動切換到 Large 模式,用上最多 400 個 視覺token 來記錄。
如果覺得還不夠的話,DeepSeek-OCR 還能支持動態調整的 Gundam 模式來記憶圖片,主打一個應記就記,分清輕重緩急的記。
![]()
而且比起過去只能識別文字的傳統模型來說,DeepSeek-OCR 能記住的數據還會更多。
論文里的一張柱狀體,DeepSeek-OCR 能夠自動把它給識別成 Excel 格式給保存下來。
![]()
文章里出現的有機化合物的分子結構圖片,也能自動轉化為標準的 SMILES(簡化分子線性輸入規范)格式存儲。
![]()
不但能記住圖片本身,DeepSeek-OCR 還會同時記住這張圖片的位置,記住圖片附近的文字在寫些什么東西。。。
過去很多看不到的二維信息,都會被 DeepSeek-OCR 給再次捕獲。
這玩意的價值有多大,可能大家一下都還沒意識到。
這兩年做大模型,除了顯卡不夠之外的最大問題,就是沒有訓練的數據了。
常規的數據集之前都用過了,想要再搞點高質量的數據集,要么偷偷去網上爬,要么花大價錢去買,再要么就是想辦法自己合成。
![]()
但現在,很多過去沒采集到的數據,就可以在二維信息里被采集到了。
就比如說很多論文文件,過去,大模型只能學到里面的文字信息,但是里面的各種圖表,插圖那都是兩眼一摸黑。
但用上了 DeepSeek-OCR 之后,就可以把之前缺的這部分給無痛補上了。
![]()
實際上 DeepSeek 也是這么想的,在論文里還特意提了一嘴,說這個新模型在一張 A100 上,一天可以給大模型采集出 20 萬頁以上的訓練數據。
所以說,在有了 DeepSeek-OCR 之后,過去的所有數據都值得用它來再識別一遍。
毫無疑問,這些數據,又會成為下一個大模型的養料。
另一方面,用二維的方式來存儲數據后,整個模型運行起來也變得更省資源了。
咱都知道,我們在用大模型的時候,聊天聊的越久、上下文越長,這個模型就越容易出 bug。
這是因為大模型在運行的時候,要處理每一個單詞,和其他所有單詞的關系。
你把對話的長度增加一倍,整個模型的計算量就增加了四倍,增加了兩倍,那整個模型的計算量就變成了原本的九倍。
這也是為啥現在大模型廠商都在給你限制上下文長度的原因之一,你要是在一個對話里聊的太嗨了的話,成本要直接卷上天去了。
![]()
而在用上了圖像記憶之后,DeepSeek 可以把 token 的數量,壓縮到原本的十分之一。。。
同時,還不會讓性能有太大的損失。
在論文里可以看到,初出茅廬的 DeepSeek-OCR,就能用原本 1/10 的token 數量,達到原模型 96.5%的準確率。
即使哥們再狠點,給它壓縮個20倍,模型的準確率,也還能保持個六成左右。。。
![]()
同時,DeepSeek 的研究人員還發現了一件好玩的事情。
他們會感覺大模型通過不同的清晰度來存儲圖像的方式,其實和我們人類遺忘信息的方式很像。
![]()
對我們人類來說,遺忘是一個循序漸進的過程。
剛發生的事情,就有點像是 DeepSeek 用 Gundam 模式存下來的數據,最清晰。
而隨著時間的推移,這件事的重要性也會逐漸降低,存儲它的格式也會從最大的 Gundam 一路降級,從 Large 一路降到最小的 Tiny,占用的 token 數量也會越來越少。
![]()
把這個概念引入到大模型里的話,咱們就可以把最近的聊天記錄,用“4K HDR藍光” 的格式來存儲,而那些早年不太重要的聊天記錄,則是給壓縮成 480P 的文件保存。
通過這種主動遺忘的方式,是否能讓大模型的上下文能力變得更強呢?
這個想法很有意思,只不過目前就連 DeepSeek 自己也沒能給出一個明確的答案。
![]()
不過好在 DeepSeek-OCR 還是和過去一樣開源的,相信這個問題,要不了多久就會變成熱門,整出不少新東西來。
最后,提到開源,我還注意到另外一件事。。。
這次研究不但是 DeepSeek 自己的成果,也是開源社區集體的勝利
比如訓練數據里,用到了 華為的 Wukong 數據集,在生成樣本文字時,借助了 百度的 PaddleOCR,而在圖像特征提取部分,核心組件竟然是 Meta 開源的 SAM,在視覺語義理解層面,還整合了 OpenAI 的 CLIP 模型。
![]()
正是這些來自全球的開源成果,被 DeepSeek 重新編織成了一個能“用圖片思考”的 AI。
所以,R2 什么時候會來呢。
撰文:早起
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
DeepSeek 官網
Bilibili、小紅書
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.