當前端側(cè)多模態(tài)大模型普遍面臨性能不足、能力有限、適配性差等問題,難以滿足端側(cè)對高性能、強隱私、低延遲的需求,成為制約下一代 AI 手機發(fā)展的關(guān)鍵。
為此,OPPO AI 中心推出開源的全鏈路適配的端側(cè)多模態(tài)大模型 AndesVL。該模型兼具 SOTA 水平的通用多模態(tài)理解推理能力與端側(cè)專項優(yōu)勢,含 0.6B-4B 四檔尺寸套件,支持多場景靈活部署,還具備強 GUI 與多語言能力,更將全面開源。其通過先進技術(shù)實現(xiàn)端側(cè)效果與效率均衡,為端側(cè)多模態(tài)大模型應用樹標桿,助力 AI 手機等場景創(chuàng)新。AndesVL具有通用能力強、端側(cè)能力專、適用范圍廣、端側(cè)部署好、端測試配快等諸多優(yōu)勢。AndesVL浮點數(shù)模型在多個領(lǐng)域共30余個benchmark上取得相近尺寸模型的SOTA效果,端側(cè)部署的模型實現(xiàn)高達6.7倍的峰值解碼加速比以及1.8BPW的壓縮效率。
技術(shù)背景
近年來,多模態(tài)大模型已在云端各類場景的應用中取得顯著成功,而如何在智能手機等終端設備上充分發(fā)揮多模態(tài)大模型的能力,是下一代AI手機能否成功的關(guān)鍵。端側(cè)應用亟需多模態(tài)大模型具備高性能、強隱私、低延遲的能力,但目前的端側(cè)多模態(tài)大模型普遍存在性能不足、能力有限、適配性差的問題。
為此,OPPO AI中心大模型算法團隊推出國內(nèi)首個全鏈路適配的端側(cè)多模態(tài)大模型——AndesVL。該系列模型不僅具備廣泛適用的SOTA水平的多模態(tài)理解和推理能力,還實現(xiàn)了端側(cè)化部署與業(yè)務場景應用的無縫對接,能夠快速部署、加速推理并廣泛應用于智能AI手機等端側(cè)場景。全系列模型包含0.6B至4B四個階梯尺寸的套件,支持不同資源環(huán)境下的配置與應用。除具備通用多模態(tài)識別、理解和推理能力外,AndesVL還具有強大的GUI能力和多語言能力,全面適配多樣化、全球化的手機端側(cè)應用。此外,AndesVL將全面開源,為端側(cè)多模態(tài)大模型的部署與應用樹立標桿,同時促進產(chǎn)業(yè)內(nèi)相關(guān)技術(shù)和應用的全面快速發(fā)展。
具體而言,AndesVL主要有以下幾個亮點:
- 通用能力強:AndesVL對比同參數(shù)規(guī)模的開源模型在公開評測集上綜合達到SOTA水平、30多個評測集上達到Top1的精度,能力涵蓋數(shù)學推理能力、OCR識別能力、圖文理解和知識能力、多圖理解以及幻覺抑制等。
- 端側(cè)能力專:AndesVL針對手機端側(cè)的多語言、GUI理解需求進行專項提升,使模型兼顧通用能力的同時,在這兩項端側(cè)相關(guān)能力上也達到SOTA。
- 適用范圍廣:為滿足不同資源限制和多樣性應用的需求,AndesVL提供0.6B、1B、2B、4B共4個階梯尺寸的模型組合套裝。同時,提供各尺寸模型的Instruct版和Thinking版模型,兼顧效率和效果,既適用于高效的理解生成應用需求也能應對復雜的數(shù)學推理規(guī)劃應用的挑戰(zhàn)。
- 端側(cè)部署好:基于先進的稀疏化技術(shù)、量化感知訓練技術(shù)和編解碼加速技術(shù),實現(xiàn)端側(cè)效果和效率的完美均衡,實現(xiàn)從云端模型到端側(cè)模型的跨越。
- 端側(cè)適配快:以1+N LoRA架構(gòu)支持多場景部署,以QALFT技術(shù)實現(xiàn)場景獨立迭代更新,端側(cè)也能實現(xiàn)和云端一樣的高效靈活。
![]()
![]()
模型架構(gòu)
![]()
![]()
AndesVL是面向?qū)嶋H端側(cè)部署開發(fā)的大模型,因此從架構(gòu)設計起,就綜合考慮模型能力和端側(cè)資源、功耗限制的均衡。為適應不同資源限制下的端側(cè)化運行場景,AndesVL 系列模型在統(tǒng)一的架構(gòu)模式下具備參數(shù)范圍從0.6B到4B的4個不同尺寸模型,每個模型具有Instruct和thinking兩個版本。統(tǒng)一的架構(gòu)有利于模型的快速開發(fā)迭代和部署應用,不同的模型尺寸適應不同的需求和資源限制場景,而通用指令版和推理版能分別應對通用指令執(zhí)行和強推理的不同應用場景需求。
具體而言,模型結(jié)構(gòu)包括三部分:視覺編碼器(ViT)、多層感知器(MLP)和大語言模型(LLM)。視覺編碼器的選型上,1-4B版本的采用AimV2-300M,相比更大、更復雜的編碼器(如 Qwen2VL-ViT),其尺寸和架構(gòu)設計在功耗和部署適配性上都更適合端側(cè)使用;應對0.6B模型部署資源限制更為嚴格的要求,則采用更小尺寸的SigLIP-2-base 作為視覺編碼器,在保證效果的同時盡可能減少資源消耗。在基礎的視覺編碼器上,AndesVL 加入了二維旋轉(zhuǎn)位置嵌入(2D-RoPE),借助其外推能力,使模型能有效處理高低不同分辨率圖像的輸入。此外,視覺編碼器基于Native Resolution ViT(NaViT) 策略直接處理任意分辨率的輸入,能高效處理任意寬高比和分辨率的圖像,同時采用像素重排 (pixel shuffle) 無損壓縮序列長度,提高處理性能。 在大語言模型部分,AndesVL采用成熟的Qwen3系列語言模型,以支持Instruct和Thinking兩種模式的模型實現(xiàn)。
訓練方案
1、預訓練階段
AndesVL 的預訓練階段包含三個步驟:視覺-語言對齊、視覺-語言聯(lián)合預訓練和多任務預訓練:
![]()
- 視覺-語言對齊
該階段訓練除進行視覺模態(tài)到語言模態(tài)的對齊外,重點訓練以充分發(fā)揮新引入的二維旋轉(zhuǎn)位置嵌入的潛能。訓練第一階段使用大量低分辨率數(shù)據(jù)(最高 896×896 像素)進行預訓練;第二階段則在此基礎上繼續(xù)使用更高分辨率數(shù)據(jù)(最高1792×1792 像素)進行微調(diào)。為保持語言模型穩(wěn)定性,該階段主要使用的數(shù)據(jù)為圖像描述(Captions)、光學字符識別(OCR)數(shù)據(jù)和視覺問答(VQA)等較為通用的視覺語言對齊數(shù)據(jù)。
- 視覺-語言聯(lián)合預訓練
視覺-語言聯(lián)合預訓練階段解凍 LLM 的參數(shù),并以相對較低的學習率進行全參數(shù)預訓練,同時此階段將 LLM 的上下文窗口從 2,048 擴展到 8,192。
這一階段的訓練數(shù)據(jù)主要由圖文交錯的數(shù)據(jù)組成,這將傳統(tǒng)的純文本預訓練擴展為包含圖像輸入的形式。為了保留模型的純文本處理能力,提升指令理解能力和基本的視覺理解能力,他們在訓練中也混入了一部分純文本數(shù)據(jù)、一定數(shù)量的VQA數(shù)據(jù)和第一階段中用于視覺-語言對齊的數(shù)據(jù)。為防止單向自回歸的 Transformer 中圖像出現(xiàn)在序列末尾時導致無法有效學習的問題,訓練時采取隨機位置替換的方式,即以 50% 的概率隨機將圖像從原始位置提前至文本內(nèi)容之前,并用對應的索引代替原圖像位置。
相比于Instruct版的訓練,Thinking版模型從此階段起就開始引入大量長推理數(shù)據(jù),包括圖文混合的長推理數(shù)據(jù)和純文本的長推理數(shù)據(jù),在保持原LLM的數(shù)學推理能力的同時,激活多模態(tài)模型的長推理能力。
- 多任務預訓練
在此階段,AndesVL使用標注數(shù)據(jù)的有監(jiān)督學習,并專注于對答案部分的文本token計算損失。這一階段的主要數(shù)據(jù)類型包括通用的視覺問答(VQA)、圖像描述(Captions)、光學字符識別(OCR)數(shù)據(jù)和圖文長推理數(shù)據(jù),同時也引入了特定任務的數(shù)據(jù),例如定位(Grounding)和用戶界面(GUI)相關(guān)數(shù)據(jù)。同樣的,這個階段的Thinking模型也引入了大量的長推理數(shù)據(jù)。為了更好地學習高分辨率數(shù)據(jù)中的信息,在此階段將 ViT 的圖像塊輸入長度從4,096 增加到了 16,384。同時LLM的序列長度也從8,192擴展到32,768。
![]()
2、后訓練階段
AndesVL的后訓練主要應用的技術(shù)包括:監(jiān)督微調(diào) (SFT)和強化學習對齊(RL)。其中RL階段對Instruct模型和Thinking模型分別使用混合偏好優(yōu)化 (MPO)和GRPO。因此后訓練數(shù)據(jù)包含三部分,通用的微調(diào)數(shù)據(jù)、MPO數(shù)據(jù)和GRPO數(shù)據(jù)。
- 監(jiān)督微調(diào)
監(jiān)督微調(diào)的通用數(shù)據(jù)集經(jīng)過精心設計,能夠?qū)⒍喾N輸入模態(tài)引入模型,從而增強強大的表征學習能力。該數(shù)據(jù)集涵蓋了多種任務目標,例如圖像描述、圖像問答、文本摘要、代碼生成等。
![]()
監(jiān)督微調(diào)數(shù)據(jù)經(jīng)過多階段的數(shù)據(jù)過濾流程,包括單模態(tài)過濾、任務聚類及基于LLM的評分機制,最終構(gòu)建了一個包含約1600萬條數(shù)據(jù)的高質(zhì)量微調(diào)數(shù)據(jù)集。
- 混合偏好優(yōu)化
直接偏好優(yōu)化(DPO)已成為將大語言模型(LLM)與人類偏好對齊的主流方法,由于其在語言模型對齊中的良好表現(xiàn),近期一些研究已將 DPO 應用于多模態(tài)場景中。然而,在多模態(tài)大語言模型中應用 DPO 仍面臨兩大挑戰(zhàn):一是缺乏全面且高質(zhì)量的多模態(tài)推理偏好數(shù)據(jù)集,二是 DPO 本身無法評估單個回答的絕對質(zhì)量。為應對這些問題,InternVL團隊提出了一種新的方法——混合偏好優(yōu)化(MPO),該方法已在多個多模態(tài)推理評估任務中展現(xiàn)出更優(yōu)的性能表現(xiàn)。
AndesVL采用了MPO的訓練方法,并針對性設計了數(shù)據(jù)構(gòu)造pipeline,由此生成了大量MPO訓練數(shù)據(jù),結(jié)合開源數(shù)據(jù)MMPR,顯著提升了模型的整體能力。
![]()
- GRPO訓練
根據(jù)DeepSeek的實驗結(jié)論,小模型可以從大模型中繼承思維鏈的推理能力,因此AndesVL采用了數(shù)據(jù)蒸餾的方式,通過設計數(shù)據(jù)構(gòu)造的pipeline來大批量獲取高質(zhì)量的多模態(tài)長思維鏈數(shù)據(jù)。
借鑒Qwen3思考模式切換的設計思路,AndesVL采用了兩類數(shù)據(jù)集:一種包含詳細推理步驟的“有思考過程”數(shù)據(jù)集,另一種省略推理過程的“無思考過程”數(shù)據(jù)集。這種策略使得模型可以在思考和不思考之間靈活切換。
GRPO階段我們采用多模態(tài)推理數(shù)據(jù)和純文本推理數(shù)據(jù)的兩階段訓練方案,同時根據(jù)數(shù)據(jù)難度從易到難做課程學習充分激發(fā)模型的推理能力,使其在數(shù)學推理等領(lǐng)域的效果大幅提升,同時保持非推理領(lǐng)域的效果。
端側(cè)部署解決方案:算法優(yōu)化與高效部署的創(chuàng)新實踐
為應對端側(cè)AI規(guī)模化落地的挑戰(zhàn),OPPO基于自研的AndesVL多模態(tài)模型,構(gòu)建了一套從底層算法優(yōu)化到上層部署架構(gòu)的完整技術(shù)方案。該方案聚焦于算法優(yōu)化與端側(cè)部署兩大方向,通過在模型壓縮與架構(gòu)設計上的協(xié)同創(chuàng)新,實現(xiàn)了推理效率、部署靈活性與迭代經(jīng)濟性的顯著提升。
1、算法優(yōu)化:稀疏化+QAT,奠定高效部署基石
在算法層面,我們通過前沿的稀疏化壓縮與量化感知訓練技術(shù),從源頭削減模型的計算與存儲開銷,同時結(jié)合先進編解碼算法,為端側(cè)高效推理奠定堅實基礎。
模型稀疏化壓縮:突破75%稀疏度,BPW低至1.8+bit
我們實現(xiàn)了大語言模型稀疏化技術(shù)的關(guān)鍵突破。OPPO與聯(lián)發(fā)科聯(lián)合優(yōu)化模型端側(cè)內(nèi)存壓縮技術(shù),通過算法與硬件的協(xié)同設計,在極小的效果損失前提下,將模型權(quán)重稀疏度提升至75%以上,平均每參數(shù)比特數(shù)(BPW)成功降至1.8bit以下,結(jié)合聯(lián)發(fā)科天璣9500芯片的硬件內(nèi)存壓縮技術(shù),OPPO實現(xiàn)模型端側(cè)內(nèi)存占用降低30.9%,推理速度提升45%。成功在壓縮率、推理速度與精度保持之間達成了高效平衡。
量化感知訓練(QAT):構(gòu)建從訓練到部署的可預測通路
我們構(gòu)建了覆蓋基模型與場景LoRA的雙重量化感知訓練體系,確保量化模型在端側(cè)的效果可靠性與迭代效率。
- 基模型QAT框架:支持權(quán)重(W2/W3/W4/W8)與激活(A8/A16)的細粒度混合精度配置。其核心創(chuàng)新在于建立了從“靜態(tài)QAT訓練”到“端側(cè)PTQ結(jié)果”的無縫映射機制,有效消除了因校準數(shù)據(jù)分布差異等因素引入的精度波動,大幅提升了模型在真實硬件上的表現(xiàn)確定性與穩(wěn)定性。
- QALFT框架(Quantization-Aware LoRA Fine-Tuning):在“1+N LoRA”架構(gòu)下,不同的場景LoRA會產(chǎn)生不一樣的激活范圍,這導致基模型在量化過程中必須考慮所有場景的激活范圍才能保證最佳的量化效果,因此當場景發(fā)生更新或新增時,都需要對基模型重新量化,這影響了端側(cè)模型的部署和迭代的效率。為了解決上述問題,我們與聯(lián)發(fā)科聯(lián)合開發(fā)了端側(cè)LoRA量化感知訓練框架QALFT(Quantization-Aware LoRA Fine Tuning)。該技術(shù)通過在云端仿真端側(cè)已經(jīng)量化好的基模型的計算結(jié)果,實現(xiàn)對場景LoRA進行量化感知訓練,讓場景LoRA在訓練階段擬合端側(cè)已經(jīng)產(chǎn)生的量化誤差。基于QALFT框架,真正實現(xiàn)了場景的新增和更新彼此獨立,提升端側(cè)部署效率與靈活性,并最大程度保證端上的算法效果。
![]()
QALFT框架的核心思想是模型、數(shù)據(jù)、訓練器三方解耦,各組件可在不同訓練流程中復用。同時,Runtime庫與上層設施隔離,保證訓練流程可以在不同平臺快速遷移。通過使用QALFT訓練套件,我們可以快速在MTK硬件平臺上進行模型訓練和部署。
編碼壓縮與解碼加速:突破長上下文與自回歸生成瓶頸
為克服長文本輸入與自回歸生成帶來的端側(cè)推理延遲,我們針對LLM的推理流程進行了深度優(yōu)化。
- 編碼壓縮:針對長提示下鍵值緩存(KV Cache)內(nèi)存暴漲的業(yè)界難題,我們基于長文本特征稀疏的特性,研發(fā)了端側(cè)專用編碼加速方案OKV。該方案通過對KV緩存進行智能稀疏化,在僅保留25%緩存的條件下,效果即可媲美全量緩存,同時成功在端側(cè)支持了高達128K的上下文長度,為用戶流暢的長文本交互體驗提供了核心技術(shù)保障。
- 解碼加速(投機解碼):為破解自回歸解碼的串行瓶頸,提升端側(cè)模型的能耗效率,我們整合改進了EAGLE-2、HASS等前沿投機解碼算法,結(jié)合OPPO的模型壓縮算法,AndesVL的峰值解碼加速比達到6.7倍,顯著提升了端側(cè)AI的響應速度。
2、端側(cè)部署:1+N LoRA架構(gòu)實現(xiàn)低成本、高靈活的規(guī)模化擴展
在部署架構(gòu)層面,我們創(chuàng)新性地采用了 “1+N LoRA” 策略,以一個強大的多模態(tài)基模型結(jié)合多個輕量級、可插拔的場景專用LoRA模塊,有效應對端側(cè)設備資源受限與場景多樣化的雙重挑戰(zhàn)。
該架構(gòu)允許在運行時動態(tài)加載不同的LoRA來執(zhí)行相應任務,不僅顯著降低了新增功能所需的存儲空間與更新成本,更使得OPPO能夠基于同一基模型,快速發(fā)布并迭代多款運行于AI設備上的端側(cè)應用,實現(xiàn)了高效、經(jīng)濟的規(guī)模化部署與敏捷迭代。
評測結(jié)果
1、整體能力
![]()
上表展示了不同多模態(tài)大模型 (MLLM) 在學術(shù)基準測試中的詳細評估結(jié)果。4B-Thinking 模型70.9 分,比第二名InternVL3.5-4B 高出 3.2 分。在6大垂直領(lǐng)域,AndesVL-4B均取得第一的分數(shù),顯示出其在各種多模態(tài)場景下的卓越性能。4B-instruct 在多個垂直領(lǐng)域同樣表現(xiàn)出色,尤其是在多圖像理解和多語言任務。AndesVL-2B-Thinking總分64.4,在同規(guī)模模型中排名第一,其在多圖像理解和幻覺緩解方面性能突出。1B和0.6B模型優(yōu)勢明顯,thinking和instruct模型分別位列同尺寸前兩名。特別是0.6B模型,相比InternVL3.5-1B等各大尺寸的模型,也具有一定優(yōu)勢。
這些結(jié)果凸顯了AndesVL系列模型在處理一系列需要多模態(tài)感知、理解和推理的現(xiàn)實世界任務方面的出色能力。同時,0.6B-4B的多樣性的尺寸范圍結(jié)合其強大的多模態(tài)能力,AndesVL十分適合應用于各類場景,特別是計算資源緊缺的手機移動場景。
2、垂域能力
- 數(shù)學和邏輯推理能力
![]()
AndesVL-4B-Thinking在各類數(shù)學與推理基準測試中以58.3的綜合得分位居榜首,特別是在MathVista、MathVerse和WeMath基準測試中較先進模型展現(xiàn)出顯著優(yōu)勢。AndesVL-2B-Thinking模型以45.7的綜合得分位列第二,與最高分49.9十分接近。此外,AndesVL的1B和0.6B模型在各自規(guī)模組別中僅在綜合得分上最高,而且在大多數(shù)單項基準測試中也是第一。
這些結(jié)果印證了訓練策略的有效性:在預訓練階段利用大規(guī)模、優(yōu)質(zhì)的長鏈思維鏈多模態(tài)數(shù)據(jù)激活推理能力后,在后訓練階段通過強化學習顯著增強了模型的視覺-文本聯(lián)合推理能力。
- 視覺文本理解能力
![]()
AndesVL4B-Thinking模型以86.0的綜合得分在視覺文本任務中奪得第一,并在八項基準測試中的四項取得最佳成績。同樣,AndesVL-4B-Instruct也取得84.8的優(yōu)異表現(xiàn)。特別在ChartQA上,AndesVL-4B-Thinking模型獲得90.4分,以4.4分的優(yōu)勢顯著超越此前最佳模型InternVL3.5-4B(86.0)。在DocVQA基準測試中同樣觀察到類似的顯著優(yōu)勢。由于ChartQA和DocVQA都是以長文本圖像和復雜問題構(gòu)成,這個結(jié)果說明了AndesVL不僅能夠準確識別長文本,更能運用高級推理能力有效解決具有挑戰(zhàn)性的多模態(tài)問題。
對于更小尺寸的模型,AndesVL-2B-Instruct、AndesVL-1B-Thinking和AndesVL-0.6B-Instruct模型均在各自規(guī)模組別中奪得第一,展現(xiàn)出全系列模型的優(yōu)秀視覺文本理解能力。
- 多圖理解能力
![]()
AndesVL-4B 在多項多圖像基準中表現(xiàn)優(yōu)異,獲得67.8 的最高分。更小尺寸的模型依舊繼承了4B模型的優(yōu)勢,0.6B模型得分53.1,相比1B模型無明顯精度下降。這一優(yōu)勢表明,AndesVL 采用的先進預訓練策略和增強的訓練數(shù)據(jù)集,通過同時理解和分析多幅圖像之間的關(guān)系,顯著提升了其捕捉和推理圖像間關(guān)系的能力。
- 通用問答理解能力
![]()
AndesVL 模型(4B、1B 和 0.6B)在各自尺寸中取得了最佳精度,2B 版本也獲得極具競爭力的成績。詳細分析顯示, AndesVL 在 MME 和 RealWorldQA 上展現(xiàn)出優(yōu)異性能。這表明我們的模型能夠提取魯棒圖像特征,并展現(xiàn)出強大的真實場景理解能力,能夠有效地處理復雜且動態(tài)的任務。
- 幻覺抑制能力
![]()
AndesVL 各尺寸模型均排名第一,4B 和 0.6B 模型分別得分74.8 和 65.9,與其他同尺寸模型相比有顯著優(yōu)勢,而且這種優(yōu)勢在更小尺寸模型上更加明顯。這表明我們的架構(gòu)在保持高精度的同時,還提供了優(yōu)異的幻覺緩解能力,即使在最小的 0.6B 版本中也依舊如此。
- 多語言理解能力
![]()
AndesVL 的 Thinking 和 Instruct 模型都展現(xiàn)出優(yōu)異的多語言能力,取得 64.9 的最高分,比之前的最佳模型 Ovis2-4B 高出 1.5 分。這種專業(yè)的多語言能力可以使模型的多模態(tài)能力能夠遷移到多個語種,從而將應用擴展到更廣泛、更多樣化的全球受眾。
- UI理解能力
![]()
AndesVL 模型在ScreenSpot和我們自建的 AndesUI 評測集上均取得了領(lǐng)先精度。這些結(jié)果共同證明了AndesVL在 UI 理解和應用方面的豐富經(jīng)驗和獨特的競爭優(yōu)勢。
3、on-device效果和性能評測
我們在多個公開評測集進行端側(cè)精度和推理速度的評測,展示OPPO在端側(cè)模型精度優(yōu)化和推理加速方面的成果。
- 量化感知訓練
![]()
Top1-accuracy體現(xiàn)了模型在量化前后解碼行為的一致性。我們在端側(cè)驗證了經(jīng)過量化感知訓練(QAT)前后的Ansdes-VL-4B進行PTQ(W4A16)之后的精度,實驗結(jié)果顯示OPPO自研的QAT訓練框架可以顯著降低模型在端側(cè)的量化損失。
- Cache Eviction
![]()
我們成功將自研的OKV端側(cè)編碼壓縮方案應用在OPPO亮點功能-通話摘要上,可以看到在50%壓縮率的實驗條件下,相比SnapKV這一經(jīng)典方案,模型在rouge-1指標上提升超過10%。在25%壓縮率下甚至媲美全量KV緩存效果。
- Speculative Decoding
![]()
結(jié)合自研的投機解碼算法、模型稀疏化及聯(lián)發(fā)科天璣9500芯片的硬件壓縮技術(shù),在AndesVL-4B上,我們實現(xiàn)了比無壓縮優(yōu)化的自回歸模型高達6.7倍的峰值解碼加速比。通過極致的模型壓縮,模型的BPW也大幅下降至1.8。
AndesUI benchmark
為增強 AndesVL 對智能手機 UI 的理解能力,OPPO多模態(tài)大模型團隊構(gòu)建了一個專注于 UI 理解的數(shù)據(jù)集,名為 AndesUI。此數(shù)據(jù)集共收集了 90 款應用,其中包括來自 OPPO 軟件商店的 65 款熱門下載應用,覆蓋用戶高頻使用的多個類別,以及 25 款 ColorOS 預裝應用。標注人員被要求截取每款應用中不同且具有異構(gòu)特性的頁面截圖,確保每張截圖包含獨特的布局和內(nèi)容。最終共收集了來自第三方應用的 10000 張截圖和來自 ColorOS 預裝應用的 2500 張截圖。
得到以上圖片數(shù)據(jù)后人工對每張截圖中的所有控件進行標注,包括繪制邊界框、識別控件類型、記錄控件上可獲取的文字內(nèi)容、判斷其是否可點擊等信息。平均每張界面截圖生成約 18 個控件,訓練集中共計包含 227000 個控件。
最終構(gòu)建了基礎與進階兩類數(shù)據(jù)。基礎數(shù)據(jù)包括定位與指代表達數(shù)據(jù)集,進階數(shù)據(jù)則涵蓋整體描述性數(shù)據(jù)和自然語言問答對。最終訓練集共生成 227000 條指代表達數(shù)據(jù)、186000 條定位數(shù)據(jù)、13000 條綜合描述數(shù)據(jù)以及 108000 條自然語言問答對。
數(shù)據(jù)示例如下:
![]()
![]()
模型輸出示例
下面展示了AndesVL-4B模型在各個場景的輸出示例:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
未來展望
OPPO多模態(tài)大模型團隊提出的Andes-VL從模型架構(gòu)、訓練方法、端側(cè)部署、模型應用等多個方面提出了針對端側(cè)多模態(tài)大模型訓練部署應用的綜合解決方案。當前該模型在綜合效果、數(shù)學推理、GUI理解、多語言都達到了同量級模型的領(lǐng)先水平,并開源相關(guān)模型推動行業(yè)技術(shù)進步。
未來該團隊將會在視覺編碼器解決方案、后訓練方案、知識蒸餾機制、融合文本視覺語音三模態(tài)的一體化模型等方向繼續(xù)發(fā)力,相信OPPO將不斷在手機端側(cè)實踐和應用這些技術(shù),給用戶提供更安全、更快捷、更智能的交互體驗,也將推動整個行業(yè)向更高層次的技術(shù)革新邁進。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.