允中 發自 凹非寺
量子位 | 公眾號 QbitAI
隨著移動智能技術的飛速迭代,手機端聚合服務的AI“超級入口” 正成為行業競爭的新焦點——
GUI Agent(圖形用戶界面智能體)憑借重塑流量分發格局的潛力,不僅催生千億級市場機遇,更吸引蘋果、華為、字節跳動、美團、智譜AI等企業紛紛布局。
2025年9月14日,美團率先推出首個AI Agent,支持平臺內“一句話點餐”,標志著該技術從研發走向實用化;而中興通訊憑借自研技術框架,在這一賽道上交出了亮眼答卷,讓手機真正實現“秒變私人小秘書”的體驗升級。
據2025年10月17日SuperCLUE發布的AgentCLUE-mobile手機GUI Agent(離線)基準測評數據顯示,中興通訊Nebula-GUI模型以7B參數量斬獲總榜銀牌,總分,其中UI元素定位得分,尤其在自動點餐、訂票等復雜任務中,其準確率與操作速度遠超業界其他模型,充分具備手機端側部署落地能力。
![]()
圖源:AgentCLUE-Mobile手機GUI Agent(離線)測評基準
目前,Nebula-GUI的 “一句話訂票”“一句話拍照” 功能已在中興終端努比亞Z70 Ultra 、Z80 Ultra及紅魔新品手機商用。
截至當前,該模型已覆蓋30余款主流APP,常用場景平均準確率超90%,未來計劃進一步覆蓋手機絕大多數APP與使用場景,并新增購物比價、旅游出行等場景級服務,持續深化“手機小秘”的實用價值。
![]()
圖源:AgentCLUE-Mobile手機GUI Agent(離線)測評基準
攻克手機數據困局:端到端數據制備系統夯實技術根基
GUI Agent的性能好壞,數據是核心支撐。但當前屏幕自動技術的訓練數據獲取面臨多重行業難題:
- 高質量中文GUI數據稀缺,公開英文數據集已達百萬級,中文數據卻僅數千組,且標注粒度粗、屬性缺失;
- 跨APP操作的復雜任務軌跡數據不足;
- 人工標注流程低效,不僅難以記錄觸控坐標與UI控件元數據;
- 還存在思維鏈等語義信息缺失、核查成本高的問題;
- 人工標注易受主觀影響,導致數據泛化性差。
![]()
端到端數據制備系統
為解決上述數據獲取的核心痛點,中興開發了一套完整的端到端數據制備系統:包括數據標注工具、自動化數據PIPELINE、自動化軌跡數據生成系統,顯著提升了數據標注效率,有效提升數據質量。
目前,基于該系統生成的數據占訓練數據的90%,整體覆蓋了出行、社交、生活服務等多元場景下的主流APP,能夠為項目高效、穩定地輸出高質量數據。
一體化數據標注工具:提升數據標注效率效率
GUI數據標注工具,將原本分散、依賴人工的截屏、操作、標注、核查、歸檔流程整合為一站式自動化流水線,顯著提升了數據標注的效率、精度和豐富度,為模型訓練提供了高質量、多維度的高價值數據。
其核心價值是通過一體化標注方案,系統性解決了屏幕交互數據制作中的效率、精度與成本難題,該工具核心功能如下:
![]()
GUI數據標注工具核心功能
通過引入GUI數據標注工具,數據標注效率實現了3倍提升。
![]()
標注數據樣例
高效智能化數據PIPELINE:賦能標注數據質量躍遷
為實現對大模型訓練數據的質量優化,中興開發了一套自動化數據Pipeline,旨在系統化解決因人工標注導致的語言表達單一、思維鏈缺失或邏輯不一致等問題,從而提升數據的多樣性與邏輯完整性,增強模型泛化能力。
這一舉措有助于顯著提升訓練數據的質量,進而提升模型的最終能力。
![]()
自動化數據PIPELINE流程
全時數據飛輪:顯著提升數據標注規模
面對屏幕數據標注對人力與設備資源的雙重依賴,中興推出了一個集任務調度、任務管理、聯邦設備管理與GUI Agent于一體的數據自動化生成平臺。
該平臺通過對分散的實體手機和虛擬機進行集約化管控,有效解決了設備資源利用率低、管理分散的痛點。
基于高效的任務調度引擎,平臺能夠全時自動化運行,構建了從任務下發到數據生成的閉環流水線。
這不僅大幅降低了對人工標注的依賴,更實現了數據生產規模與整體效率的同步飛躍,為AI模型的快速迭代提供了強大助力。
![]()
任務調度和設備管理系統
監督微調:從 “看見” 到 “執行”,打造會思考的 “小秘”
業界現有多模態大模型在處理GUI屏幕時,往往表現出三大局限:
- 首先,感知失準,它們可能識別出界面中的“一個紅色方形圖標”,卻無法精準理解這是一個“可點擊的、用于刪除項目的按鈕”;
- 其次,推理脫節,模型雖能描述屏幕內容,卻難以將“幫我訂一張明天去上海的機票”這樣的高階指令,轉化為一連串具體的點擊、輸入、滾動等原子操作;
- 最后,交互缺失,模型缺乏輸出結構化、可執行操作指令的能力,使其止步于“觀察者”而非“執行者”。
中興通訊通過構建VLA(屏幕截圖+操作指令+執行動作)數據對,對模型進行系統性監督微調,成功讓通用多模態模型進化為具備“感知-理解-執行-規劃-糾錯”能力的GUI操作智能體:
![]()
多階段精調
通過上述面向基礎能力、指令操作、任務規劃與自我反思能力的系統性監督微調,中興成功地將一個通用的多模態大模型,專項優化為一個具備高魯棒性的GUI操作智能體。
其帶來的實際效果是顯著且多層次的:
- 基礎操作魯棒性顯著增強:模型對中文GUI頁面,UI元素的動態變化(如廣告彈窗、布局調整)具備了更強的理解能力,能夠準確識別目標組件,有效抵御界面噪音干擾,大幅降低了單步操作的失敗率;
- 長任務流程成功率有效提升:得益于規劃能力的注入與自我糾錯機制,智能體不再因單步的偶然失誤或頁面的意外跳轉而導致整個任務鏈中斷。它能夠像人類用戶一樣,在執行中監測狀態,在偏離時回溯路徑,從而保證了復雜多步任務的完成度;
- 從“實驗室原型”邁向“商業可用”:最終,這些能力的綜合作用,使得GUI智能體從一個表現尚可的“原型”,進化為一個能夠適應真實世界、動態GUI環境的“準生產級”助手。其核心標志便是——在不確定的現實場景中,穩定、可靠完成任務的能力。
1、從“看見”到“洞悉”:基礎能力的質的飛躍
為了讓模型精準理解中文GUI界面的復雜結構與語義,中興針對開源視覺模型嚴重缺乏中文場景訓練數據的問題,整合開源與自研數據,并構建了一套融合XML解析、OCR識別、UI元素檢測與大語言模型標注的自動化數據標注流程,顯著提升了中文基礎數據的構建效率與質量。
最終,中興自主構建了百萬級規模的中文GUI數據集,覆蓋數十款主流中文APP及數百種高頻交互場景。
同時,從開源數據集中篩選整合了數百萬條以英文為主的GUI樣本,共同構成覆蓋描述生成、功能理解、元素定位等多類任務的基礎訓練集。
該混合數據集的引入,顯著提升了模型在GUI界面上的基礎感知與語義理解能力。
2、從“指令”到“執行” :實現高精準的原子操作
基于單個GUI截圖,模型需要能夠像人一樣對屏幕進行操作,中興構建了幾十萬的單步指令數據,用來訓練模型將用戶指令映射到正確的UI操作上。
由于單步錯誤會導致多步任務成功率指數下降,中興通過以下方法提升基礎模型能力和單步操作精度:
- 指令泛化:針對單一UI元素,人們常常會有多種口語化說法,比如點個外賣、點個奶茶、買個外賣;因此在指令上,中興針對單一元素會標注多個指令數據,從而加強模型對UI元素的真實功能理解;
- 執行思維鏈:針對指令,模型需要輸出思考過程,來決定自己該執行什么操作,以及操作的位置在哪里,思維鏈可以增強模型操作的準確性。
- 圖像思考:傳統思維鏈模式通常以文本輸出為主,導致模型出現幻覺,或者思考執行出現偏差。因此引入圖像思維鏈,模型在思考中需要輸出關注的圖像區域,綁定grounding信息來增強結果的置信度。
通過大量的指令數據和精確的思維鏈引導,模型在單步上的能力大大提升,平均準確率超過95%,部分簡單指令操作達到99%準確率
3、復雜任務的規劃與執行:實現端到端閉環
復雜任務通常指需要多步操作完成的任務,也稱為GUI導航任務,它的核心目標是引導模型完成基于特定APP內,甚至多個APP間的多步驟操作流程。
每個操作步驟(點擊/滑動等)都會引發頁面狀態變更,從而形成包含操作序列與對應頁面截圖的動態軌跡,模型每一步都需要根據任務信息、當前狀態進行決策下一步的操作。
端到端的導航任務除了依賴模型基礎能力和單步執行能力外,通常還需要模型具備規劃能力,思考能力。
為了提升模型在多步任務上的能力,中興標注了大量的APP軌跡數據,并基于這些標注的軌跡進行了多類型精調數據:
- 多訓練范式:模型支持思考模式、非思考模式、以及自適應思考模式;特別是自適應思考模式,根據任務和當前狀態,自行決定是否輸出思考過程,兼顧準確度和效率;
- 格式化輸出:模型所有的輸出格式均保持格式化規范,格式化后的范式提升了可解析性,也為強化打下了基礎;
- 平衡場景+重點采樣:通過精確到步驟級的數據采樣配比,提升復雜易出錯場景的數據配比,降低簡單場景的配比。大大提升了模型的整體準確性,以及場景的泛化性。
多種精調范式不僅提升了模型的規劃能力和反思能力,也大大提升了模型的泛化能力,在未見任務上展現出來了更好的規劃和執行成功率。
4、構建自我反思糾錯能力:提升智能體系統韌性
在線應用(APP)的界面布局時常動態變化,尤其是廣告內容等區域,甚至可能出現頁面自動跳轉的情況。
此外,模型在實際操作過程中也可能發生點擊錯誤,導致跳轉至非預期頁面。因此,模型需具備自主判斷與糾錯能力,能夠識別異常頁面狀態,并從中退出以回到正確的任務流程中。
- 多圖訓練:在常規設定中,業界通常僅將當前頁面截圖輸入模型,但這會限制模型對操作歷史的感知,進而影響其反思準確性,甚至導致“反思幻覺”。引入前后多幅截圖作為上下文,雖能提升模型決策的可靠性,但也會帶來額外的數據傳輸與Token開銷;
- 狀態轉移理解:該類任務以前后兩張頁面截圖及對應操作作為輸入信息,要求模型通過反思判斷該操作是否正確,并闡述其決策依據。該方法旨在增強模型對界面操作所引發狀態變化的深層理解能力。
自我反思和糾錯能力的引入,是構建魯棒GUI智能體的關鍵進展。它使模型從被動的指令執行者,轉變為能夠主動監測狀態、管理異常的任務主導者,從而在復雜的真實環境中保持穩定輸出。
雙層強化學習:讓 “小秘” 更智能、更魯棒
經過監督微調(SFT)的模型往往更傾向于模仿訓練數據中的界面操作模式和交互風格,而非真正理解任務背后的用戶意圖與交互邏輯。
如果訓練數據本身存在偏差或覆蓋場景有限,模型會不加辨別地復現這些局限,導致其在未見過的界面或復雜任務中表現不佳。
由于缺乏對自身行為效果的“判斷力”,模型無法評估其輸出是否合理或高效。而引入強化學習(RL)后,中興不再要求模型簡單地模仿“標準操作”,而是為其設定一個明確的目標——即獎勵函數。
當前,基于強化學習(RL)的GUI智能體已在自動化任務中展現出潛力,但其性能天花板已然顯現。
核心瓶頸在于:
- 其一,主流的離散獎勵(如0/1)無法對智能體的決策過程進行細粒度指導,導致其學習效率低下且行為不可控;
- 其二,純粹依賴于靜態離線數據集的訓練,使得智能體在面對動態、多變的真實軟件環境時泛化能力嚴重不足。
中興提出一種全新的雙層強化學習范式,通過離線步驟級連續獎勵與在線任務級強化的協同訓練,從根本上解決了這些問題,引領GUI智能體進入“精細化推理”與“自主進化”的新時代。
1、離線步驟級強化:多維度精細化獎勵
針對GUI agent在任務中獎勵粒度粗糙的問題,中興改進了傳統的GRPO離散獎勵框架,設計了細粒度的連續性獎勵信號。
該信號體系能夠對智能體的每一步推理與操作進行實時、精準的評估與引導,從而將宏觀任務目標轉化為穩定的微觀訓練信號,有效提升了智能體在圖形界面環境中的學習效率與最終性能。
![]()
多維度精細化獎勵
- 準確性獎勵:自適應空間感知的準確性獎勵
對于每個點擊操作,中興摒棄了傳統的0/1離散獎勵,設計了一種基于目標控件邊界框的自適應空間感知連續獎勵函數
該函數綜合考慮了控件在全局界面中的相對尺寸以及點擊位置在框內相對于中心的歸一化距離,通過一種融合了尺寸感知與邊界敏感性的機制,使得獎勵值隨著定位精度的提升而平滑且非線性地增加。
此舉為策略優化提供了遠比簡單歐氏距離更豐富、更平滑的梯度信號,能引導模型自適應地學習對不同尺寸控件的精準定位策略,從而顯著提升了模型的決策效率、泛化能力與行為可解釋性。
- 置信度獎勵:基于概率模型的推理質量評估
對于生成正確答案概率越高的推理過程,中興認為應該給予更高的獎勵,在模型的推理的每一步,中興不僅獲取其動作決策,同時獲取模型對于最終任務成功的預測概率,中興將該概率值作為置信度獎勵
此舉將遠期回報的期望以一種密集獎勵的形式注入到當前步驟。它激勵模型在每一步都選擇那些能夠引導至最終成功的高可能性路徑,有效壓制了隨機探索和邏輯斷裂的決策,提升了整個推理過程的連貫性與可靠性。
- 一致性獎勵:基于獎勵模型的邏輯對齊
中興訓練了一個專用的推理獎勵模型,該模型以智能體的“思考過程”和“最終執行的動作”作為輸入,輸出一個衡量二者邏輯一致性的分數
解決了“認知不協調”問題。例如,模型推理“需要點擊登錄按鈕”,卻執行了“點擊注冊按鈕”的操作。該獎勵模型強制智能體的“思考”與“行動”對齊,這對于復雜任務中的可解釋性和故障排查至關重要。
2、在線任務級強化:在動態環境中鍛造“自主進化”能力
在真實的GUI任務場景中,由于每次動作執行后的環境狀態都處于動態變化之中,僅僅依賴離線數據難以覆蓋任務執行過程中可能出現的全部復雜情況。
因此,中興引入了在線任務級強化機制,通過調用聯邦調度系統,高效率生成大量執行軌跡,以多樣化的交互經驗驅動策略優化。
該機制以達成最終任務目標為核心導向,訓練模型在交互過程中自主探索不同決策路徑,并具備通過多種方式實現目標的能力。
該方法旨在顯著增強模型在未知或動態環境下的泛化性能,進一步提升GUI agent在實際應用中的適應性與魯棒性。
![]()
在線任務級強化
- 獎勵模型:任務級獎勵的關鍵組件
中興收集了大量包含成功與失敗的人類演示軌跡和智能體探索軌跡,訓練了一個任務級軌跡獎勵模型,用于判斷任務是否正確完成。
對在線學習中對軌跡進行即時評分,大幅提升了訓練效率,為模型提供了更豐富、更及時的反饋信號。
- 獎勵分配:“按功行賞”的信用歸因
中興采用了一種結合了軌跡長度和時序差分的混合信用分配方法。
對于一條完整的成功軌跡,根據相同任務執行軌跡的長度和離最終執行成功結果距離的遠近設置獎勵衰減系數,形成最終的回報。
這種方法實現了“按功行賞”。它自然地對更短、更高效的路徑賦予更高的累積回報,從而激勵智能體不僅追求成功,更追求效率,最終演化出高度優化的行為策略。
結語
從AgentCLUE-mobile榜單的銀牌認可,到努比亞Z70 Ultra、Z80_Ultra 手機上的商用落地,中興通訊Nebula-GUI模型不僅彰顯了其在GUI Agent領域的技術積累,更讓“手機變身為私人小秘書”從概念走向現實。
未來,隨著技術在智能辦公、軟件開發、自動化流程等領域的深度滲透,中興通訊或將進一步推動GUI Agent成為手機“超級入口”的核心載體,讓移動智能服務真正賦能各行各業,為用戶帶來更便捷、更智能的使用體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.