<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      智譜運氣是差一點點,視覺Token研究又和DeepSeek撞車了

      0
      分享至

      Jay 發自 凹非寺量子位 | 公眾號 QbitAI

      這不巧了嗎……智譜和DeepSeek,又雙叒撞車了。

      太卷了,DeepSeek-OCR剛發布不到一天,智譜就開源了自家的視覺Token方案——Glyph



      既然是同臺對壘,那自然得請這兩天瘋狂點贊DeepSeek的卡帕西來鑒賞一下:

      • 或許你也會對我們的工作感興趣。



      發論文就發論文,怎么還爭上寵了。(doge)

      網友調侃be like:AI界也有自己的霸總愛情片。



      智譜也做視覺壓縮

      是的,與DeepSeek-OCR一樣,智譜這篇論文的目標同樣也是通過視覺的方式,破解當下LLM上下文冗長的難題。

      激增的上下文

      隨著LLM能力一路狂飆,用戶和廠商對于長上下文的需求也越來越迫切。

      畢竟,不論是長文檔分析、代碼審查,還是多輪對話,模型可不能像金魚那樣看過就忘。要讓它們真正靠譜地執行任務,就得有足夠穩定的「工作記憶」。

      但擴充上下文可是個相當吃力不討好的工作。

      舉個例子:如果把上下文從50K擴到100K,算力的消耗大約會變成原來的四倍。

      原因在于,更多的Token,就意味著模型需要記住更多的激活值、緩存、注意力權重,這些東西在訓練和推理階段都是靠真金白銀堆出來的。

      如果能實實在在地提升性能,多花點錢也認了。

      可最讓人心痛的是,砸了重金擴上下文,模型還不一定更聰明

      IBM的研究就指出,光靠“多塞 Token”并不能保證模型表現線性提升。

      相反,當輸入太長、信息太雜時,模型反而可能陷入噪聲干擾和信息過載,越看越糊涂。

      關于這類問題,目前大概有三種比較主流的解決方案:

      第一類,是擴展位置編碼。

      在Transformer結構里,模型并不知道輸入的先后順序,因此要給每個Token加上“位置編碼”,告訴模型這是誰先誰后。

      而擴展位置編碼的做法,就是把原有的位置編碼區間直接向外延伸。

      比如,把0~32K的位置區間“插值”到0~100K,這樣,模型就能在工作時接受更長的輸入,而不必重新訓練。

      雖然如此,這并沒有解決推理成本的問題,模型在推理階段依舊要遍歷所有上下文。

      而且,模型雖然能繼續讀下去,但由于它在訓練中從未見過如此長的上下文,現在逼著人家讀肯定表現不會好。

      第二類,是改造注意力機制。

      既然上下文變長了,那就讓模型「讀」快一點,比如用稀疏注意力、線性注意力等技巧,提高每個Token的處理效率。

      但再怎么快,賬還是那本賬,Token的總量沒有減少,如果上下文都到了幾十萬,多高的效率也頂不住。

      第三類,是檢索增強RAG路線。

      它通過外部檢索先挑重點、再喂給模型,輸入變短了,推理輕快了。

      但大家也知道,RAG的輸出結果肯定不如模型基于訓練數據的回答,而且還會因多出來的檢索步驟拖慢整體響應。

      踏破鐵鞋無覓處,上下文真是個令人頭疼的問題。

      看「圖」說話

      為了解決這個問題,研究團隊提出了一種新范式——Glyph

      大道至簡:既然純文本的信息密度不夠,那就把它放進圖片里。

      普通LLM處理文本時,是把句子拆成一個個獨立的Token依次輸入,效率很低。

      比如,如果一句話能分成1000個Token,模型就得老老實實算1000個向量,還要在它們之間做注意力計算。

      相比之下,Glyph不會逐字閱讀,而是先把整段文字排版成圖像式的視覺Token,再把這張「截圖」交給VLM去處理。

      之所以要這么做,是因為圖像能承載的信息密度遠高出純文本,僅需一個視覺Token就能容納原先需要好幾個文本Token的內容。

      借助這種方式,即便是一個上下文固定的VLM,無需借助稀疏注意力、RAG等工具,也能輕松吃下足以「撐死」LLM的超長文本。

      舉個例子:小說《簡·愛》大約有240K的文本Token,對一臺上下文窗口只有128K的傳統LLM來說,只能塞進去一半。

      這種情況下,如果你想問一些涉及到故事跨度比較大的問題,傳統模型多半答不上來。

      比如:女主離開桑菲爾德后,誰在她陷入困境時幫助了她?

      但如果使用Glyph,把整本書渲染成緊湊的圖像,大約只需要80K視覺Token。



      這樣一來,同樣是128K上下文的VLM就能輕松看完整部《簡·愛》,對故事脈絡心中有數,也能從更大的全局視角來回答問題。



      這么立竿見影的效果,是怎么實現的呢?

      Glyph的訓練流程主要分為三個階段:

      第一階段:持續預訓練(Continual Pre-training)

      這一階段的目標,是讓模型把自己的長上下文理解能力從文字世界遷移到視覺世界。

      具體而言,研究團隊先盡可能多地將海量長文本渲染成不同風格的圖像,把VLM扔在各式各樣排版、字體、布局中“讀圖識文”,以便訓練出更強的泛化能力。

      在這個過程中,模型會不斷學習如何把圖像中的文字信息,與原始文本語義對齊。

      第二階段:LLM驅動的渲染搜索(LLM-driven Rendering Search)

      雖然多樣化的渲染方式能提升模型的泛化能力,但在實際應用中,效率和精度必須兼顧。

      文字如何轉成圖,決定了壓縮率可讀性之間的微妙平衡。

      字體太大、排版太松固然不好,這樣做信息密度太低,有悖于視覺Token的初衷。

      不過,過于追求信息密度也不是好事。

      字體小、布局緊,雖然壓縮率高,卻可能讓模型“看不清”,理解出現偏差。

      為此,研究團隊引入由LLM驅動的遺傳搜索算法,讓模型自動探索最優的渲染參數——比如字體大小、頁面布局、圖像分辨率等——力求在盡可能壓縮的同時不丟語義。

      第三階段:后訓練(Post-training)

      在找到最優的渲染方案后,研究團隊又動手做了兩件事:有監督微調和強化學習,旨讓模型在“看圖讀文”這件事上更聰明、更穩。

      此外,他們還在SFT和RL階段都加上了輔助OCR對齊任務,教模型學會從圖像里準確還原文字細節,讓視覺和文本兩種能力真正融為一體。

      最終,Glyph一舉練成兩大神功:

      1、看懂長文,推理穩準狠。

      2、認清細節,讀圖不傷腦。

      靠著這套組合拳,Glyph在高壓縮的視覺上下文任務里依然能游刃有余。

      狂砍75%上下文

      讀懂了原理,接下來讓我們看看Glyph的實際表現如何。

      事實證明,Glyph的確有助于大幅削減Token數。

      實驗結果顯示,Glyph在多項長上下文基準測試中實現了3–4倍的Token壓縮率,同時依然保持與主流模型(如Qwen3-8B)相當的準確度。



      這種壓縮不僅減輕了算力負擔,還帶來了約4倍的prefill與解碼速度提升,以及約2倍的SFT訓練加速。



      更令人驚喜的是,在極端壓縮的情況下,一個上下文窗口僅128K的VLM,依然能夠應對相當于百萬Token級的文本任務,并絲毫不落下風。



      此外,雖然Glyph的訓練數據主要來自渲染后的文本圖像,但它在多模態任務上同樣表現出色,證明了其強大的泛化潛力。



      綜上所述,這篇論文提出了一種名為Glyph的長上下文建模框架。

      核心思路是把長文本“畫”成圖,再讓VLM去看圖讀文,做到一目十行,從而能實現高效的上下文擴展。

      論文作者

      這么厲害的成果,都是誰做出來的?

      論文的一作是Jiale Cheng,他是清華大學的博士生,主要研究方向包括自然語言生成、對話系統和相關的人工智能交互技術。



      目前,Jiale已發布了多篇論文,并在谷歌學術上有不錯的影響力。



      此外,論文還有三位主要貢獻者:Yusen Liu、Xinyu Zhang、Yulin Fei。

      遺憾的是,都沒有太多公開資料。

      擔任本文通訊作者的是黃民烈教授



      黃教授本科與博士均畢業于清華大學,目前是清華大學計算機科學與技術系長聘教授,同時兼任智能技術與系統實驗室副主任、清華大學基礎模型中心副主任。

      此外,他還是北京聆心智能科技有限公司的創始人兼首席科學家。

      黃教授的研究方向主要集中在人工智能、深度學習、強化學習,自然語言處理等。

      像素或成最終Token

      繼MoE名聲鵲起后,DeepSeek-OCR的出現再次在AI領域掀起了一波技術革命。

      截至10月22日,抱抱臉上最受歡迎的前四個模型,全部都支持OCR。



      一方面,自然是視覺Token本身的巨大潛力。

      在上下文建模方面,視覺Token的表現堪稱驚艷——

      DeepSeek-OCR僅用100個視覺Token,就能在原本需要800個文本Token的文檔上取得高達97.3%的準確率。

      這種效率提升,意味著AI的門檻正被迅速拉低。

      據DeepSeek介紹,引入OCR技術后,單張NVIDIA A100-40G GPU每天可處理超過20萬頁文檔

      按這個速度推算,僅需一百多張卡,就足以完成一次完整的模型預訓練。

      降本增效歷來是開源陣營的強項,但在這次熱議中,大家的關注點不再僅僅停留于此——

      視覺Token的出現,或許正在從底層重塑LLM的信息處理方式。

      未來,像素可能取代文本,成為下一代AI的基本信息單元

      卡帕西指出,像素天生比文本更適合作為LLM的輸入,主要有兩點原因:

      1、信息壓縮更高→ 更短的上下文窗口,更高的效率。

      2、信息流更廣泛→ 不僅能表示文字,還能包含粗體、顏色、任意圖像。

      馬斯克的觀點則更加激進:

      • 從長遠來看,人工智能模型的輸入和輸出中 99% 以上都將是光子。



      此外,OCR的爆火也不禁讓人再次思考AI與腦科學之間千絲萬縷的聯系。

      用圖像而非文本作為輸入,乍看之下似乎反直覺,但細想便會發現,這反而更貼近人腦的信息處理方式。

      人類獲取任何新信息時,最先感知到的都是圖像。

      即便是閱讀,我們的大腦最初接收的也只是由像素按特定規律排列組合的一串圖形,在經過一層層視覺處理后,這些像素才被翻譯成“文字”的概念。

      從這個角度來看,OCR的表現固然驚艷,但也沒那么出乎意料了。

      畢竟,視覺才是人類數萬年來接觸世界的一手資料。

      相比之下,語言不過是我們基于視覺與其他感官體驗提煉出的高度濃縮的抽象層。它標準化、成本低,但本質上依舊是視覺的降維產物。

      即便再清晰的影子,也注定會流失不少細節。

      有趣的是,當AI在各項指標上不斷逼近人類、引發普遍焦慮的同時,每當技術發展陷入瓶頸,我們又總能從那個被質疑“沒那么智能”的人腦里重新找到答案

      神經網絡、注意力機制、MoE……都是這個規律下的產物。

      而這一次,深不可測的「人類智能」,從視覺Token上再次得到了印證。

      論文:
      https://arxiv.org/pdf/2510.17800
      GitHub:
      https://github.com/thu-coai/Glyph


      [1]https://x.com/ShawLiu12/status/1980485737507352760

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      茍如虎任上海楊浦區副區長

      茍如虎任上海楊浦區副區長

      澎湃新聞
      2025-11-05 21:22:27
      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      銀河史記
      2025-11-04 20:17:37
      63歲演員吳鎮宇刷老年卡坐公交,被疑“冒用他人證件”險被趕下車,當場掏身份證自證清白

      63歲演員吳鎮宇刷老年卡坐公交,被疑“冒用他人證件”險被趕下車,當場掏身份證自證清白

      極目新聞
      2025-11-04 21:57:03
      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      念洲
      2025-11-05 17:42:04
      暴跌,熔斷!剛剛,大跳水

      暴跌,熔斷!剛剛,大跳水

      新浪財經
      2025-11-05 10:31:00
      A股:大家要做好準備,尾盤明顯了,明天,11月6日,很可能這樣走

      A股:大家要做好準備,尾盤明顯了,明天,11月6日,很可能這樣走

      好賢觀史記
      2025-11-05 18:21:47
      瘦肚子的實用方法!只需要一招,把“大肚腩”變成平坦小腹!

      瘦肚子的實用方法!只需要一招,把“大肚腩”變成平坦小腹!

      增肌減脂
      2025-11-04 19:26:49
      有個比自己有錢的兄弟姐妹是啥體驗?網友:大家只是有點血緣關系

      有個比自己有錢的兄弟姐妹是啥體驗?網友:大家只是有點血緣關系

      解讀熱點事件
      2025-11-03 00:15:03
      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      荷蘭豆愛健康
      2025-11-02 07:55:38
      福建艦已掛滿旗,央視、中船瘋狂暗示,服役時間興許就是今天了?

      福建艦已掛滿旗,央視、中船瘋狂暗示,服役時間興許就是今天了?

      嘯鷹評
      2025-11-05 18:18:06
      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      樂悠悠娛樂
      2025-11-05 13:22:19
      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      紅星新聞
      2025-11-05 16:04:24
      俄美媒體不約而同就武統臺島發聲,俄媒:解放軍表現一定比俄軍好

      俄美媒體不約而同就武統臺島發聲,俄媒:解放軍表現一定比俄軍好

      文史旺旺旺
      2025-11-04 20:10:06
      剛剛!山東確認:放寬到38歲

      剛剛!山東確認:放寬到38歲

      瑯琊新聞網
      2025-11-05 08:48:28
      石臺縣委原書記靳武被逮捕

      石臺縣委原書記靳武被逮捕

      上觀新聞
      2025-11-05 16:39:23
      心梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天冷堅守4原則

      心梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天冷堅守4原則

      劉輝讀書
      2025-11-04 15:52:46
      慎入!阿什拉夫遭背后飛鏟腳踝明顯錯位

      慎入!阿什拉夫遭背后飛鏟腳踝明顯錯位

      懂球帝
      2025-11-05 11:00:12
      揭秘朝鮮“不倒翁”金永南,曾是志愿軍留朝鮮,忠心輔佐金家三代

      揭秘朝鮮“不倒翁”金永南,曾是志愿軍留朝鮮,忠心輔佐金家三代

      環球熱點快評
      2025-11-05 08:53:45
      高鐵1A座被指面壁座,乘客:體驗不佳,中途不得不站立乘車;12306回應

      高鐵1A座被指面壁座,乘客:體驗不佳,中途不得不站立乘車;12306回應

      上觀新聞
      2025-11-05 11:59:04
      總決賽爆大冷:衛冕冠軍0-2慘敗,薩巴倫卡險勝,2大名將被淘汰

      總決賽爆大冷:衛冕冠軍0-2慘敗,薩巴倫卡險勝,2大名將被淘汰

      知軒體育
      2025-11-05 16:17:18
      2025-11-05 22:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰機 美中東政策或出現重大轉變

      頭條要聞

      考慮賣給沙特48架F-35戰機 美中東政策或出現重大轉變

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      藝術
      時尚
      旅游
      手機
      軍事航空

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      今年一定要擁有這件大衣,復古又時髦!

      旅游要聞

      獨立懸崖之巔,俯瞰壯美金沙江,盡情領略其“如玉”的一面

      手機要聞

      疑似榮耀新機曝光,雙2億方案測試

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人久久精品二区三| √天堂资源网最新版在线| 亚洲三区在线观看无套内射| 亚洲av成人网人人蜜臀| 99久久精品看国产一区| 欧美激情内射喷水高潮| 国内精品自线在拍| 蜜臀一区二区三区精品免费| 中文字幕久久人妻熟人妻| 任我爽精品视频在线播放| 在线日韩日本国产亚洲| 成人午夜污一区二区三区| 蜜桃av多人一区二区三区| 国产成人一区二区三区免费| 久久精品国产亚洲αv忘忧草| 精品久久久久久无码免费| 极品粉嫩小泬无遮挡20p| 国产69精品久久久久久| 欧洲精品色在线观看| 粗壮挺进人妻水蜜桃成熟| 久久国产精品亚洲精品99| 精品不卡一区二区三区| 亚洲国产精品人人做人人爱| 亚洲中文无码永久免费| 国模一区二区三区私拍视频| 国产免费一区二区三区在线观看 | 久久天天躁狠狠躁夜夜2020老熟妇| 亚洲国产欧美一区二区好看电影| 中文字幕国产精品二区| 亚洲无人区码一二三四区| 亚洲国产精品久久久久4婷婷| 女人喷水高潮时的视频网站| 亚洲欧美自偷自拍视频图片| 日本公妇乱偷中文字幕| 久久久久人妻精品一区三寸| 国产极品粉嫩福利姬萌白酱| 熟女精品视频一区二区三区| 日韩精品无码区免费专区| 人妻激情文学| 亚洲国产无套无码av电影| 饥渴的熟妇张开腿呻吟视频|