<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      拜拜了GUI!中科院團隊“LLM友好”計算機使用接口來了

      0
      分享至

      大模型Agent幫你自動操作電腦,理想很豐滿,現實卻骨感。

      現有的LLM智能體,幾乎都繞不開兩大核心“痛點”:

      • 成功率低:稍微復雜一點的任務,Agent就“翻車”,常常卡在某個步驟不知所措。
      • 效率差:完成一個簡單任務,Agent需要和系統進行幾十輪“極限拉扯”,耗時漫長,看得人著急。

      問題到底出在哪?難道是現在的大模型還不夠聰明嗎?

      來自中國科學院軟件研究所團隊的最新研究給出了一個出乎意料的答案:真正的瓶頸,在于那個我們用了40多年、無比熟悉的圖形用戶界面(GUI)



      將“命令式”GUI轉換為“聲明式”

      沒錯,就是那個從上世紀80年代開始流行,徹底改變了人機交互方式的GUI。它一直以來都是為人類量身定制的,其設計哲學與LLM的能力模型,簡直是背道而馳。

      研究團隊指出了GUI的核心問題:在使用GUI時,應用程序的功能無法被直接訪問,而是必須依賴于導航交互

      例如,GUI功能控件藏在層層菜單、選項卡和對話框后面,控件的訪問需要點擊菜單、下拉框等進行導航,以使控件出現在屏幕上。其次,許多控件的使用(如滾動條、文本選取)需要反復調整并觀察反饋,形成高頻“觀察-操作”循環。

      研究團隊一針見血地指出,GUI的這種命令式(Imperative)設計背后,隱藏著對人類用戶的四個“關鍵假設” :

      • 眼神好:人類精于視覺識別,能快速定位按鈕、圖標和菜單的位置。
      • 動作快:人類進行“觀察-操作”循環,又快又容易。
      • 記憶容量小:人類的臨時記憶空間有限,所以界面要簡潔,一次只展示少量選項。
      • 懶得動腦:人類學習和回憶具體規則的認知成本高(例如編程語言語法),但擅長做“選擇題”。

      然而,這些假設和LLM的能力完全錯配:

      • LLM偏偏眼神不好,視覺能力有限,讓它在屏幕上精準識別信息,非常困難。
      • LLM的反應偏慢,一次推理需要幾秒甚至若干分鐘,等待時間過長。
      • LLM記性超群,巨大的上下文窗口讓它能輕松處理極大的信息量,根本不怕選項多。
      • LLM是格式達人,輸出精確的結構化指令是它的拿手好戲。

      結果就是,在使用GUI時,LLM被迫同時承擔“大腦”(策略)和“雙手”(機制)的角色,既要根據語義規劃任務,又要處理自己不擅長且繁瑣的底層操作,不僅效率低下,而且認知負擔過重,極易出錯。

      這種“命令式”的交互方式,就像是你打車去一個地方,但不能直接告訴司機目的地,而是必須一步步指揮他如何開:“前方200米左轉,再直行50米,在紅綠燈處右轉……”。一旦你說錯一步,或者司機理解錯了,就前功盡棄。這正是當前LLM智能體面臨的窘境。

      那么,有沒有一種可能,讓LLM“打車”時,只需要說出最終目的地,剩下的路線規劃和具體駕駛操作,都交給一個“老司機”來自動完成呢?

      這就是這項研究的核心思路:將接口從“命令式”轉換為“聲明式”(Declarative)。為此,研究團隊基于GUI和操作系統的可訪問性機制,提出了一個全新的抽象——聲明式接口(GOI)



      GOI的精髓在于“策略-機制分離”(policy-mechanism separation):

      • 策略(Policy):要完成什么,即任務的高層語義規劃和功能編排。例如,“把所有幻燈片的背景都設置為藍色”這一任務,需要依次用到”藍色”和“應用到全部”這兩個功能。這是LLM擅長的。
      • 機制(Mechanism):具體怎么做,即底層的導航和交互。例如,“點擊‘設計’選項卡 -> 點擊‘格式背景’ -> 點擊‘純色填充’ -> …”。或者來回不停地拖拽滾動條以移動到合適的位置。這是LLM不擅長,但可以被自動化的。



      GOI將繁瑣、易錯的“機制”部分接管,只給LLM提供三個簡單直接的“聲明式”原語:訪問(access)、狀態(state)和觀察(observation)

      現在,LLM不再需要像新手司機一樣戰戰兢兢地發出每一個微操指令,而更像一位運籌帷幄的指揮官:它只需通過GOI下達“訪問‘藍色’和‘應用到全部’”,或“設置滾動條到80%” 這樣的高層指令,GOI就會自動完成所有中間的GUI導航和交互。

      如此一來,LLM終于可以從GUI的泥潭中被解放出來,專注于它最擅長的語義理解和任務規劃。更重要的是,整個過程不需要修改應用程序的源代碼,也不依賴應用程序對外提供API。

      GOI如何實現“策略”與“機制”的解耦?

      GOI的實現分為兩個階段:離線建模和在線執行。



      第一步:離線“繪制地圖”。在離線階段,GOI會自動探索目標應用(如Word)的可訪問控件,分析點擊前后界面元素的變化,從而構建出一張完整的“UI導航圖”(UI Navigation Graph)

      但挑戰隨之而來:復雜的應用中充滿了循環路徑和“合并節點”(即多個路徑可以到達同一個控件),而不同的路徑會觸發同一控件的不同功能。

      GOI的巧妙之處在于,它通過一套去循環和基于成本的“選擇性外化”算法,將這張復雜的圖(Graph)轉換成了一個路徑清晰、無路徑歧義的“森林”(Forest)結構 。這確保了無論LLM想訪問哪個功能,都有唯一且確定的路徑可以到達。

      第二步:在線執行。在執行任務的在線階段,LLM不再需要輸出細粒度的GUI導航和交互序列。

      取而代之的,是GOI提供的一份壓縮后、對LLM上下文窗口非常友好的文本化“地圖” 。當LLM需要執行任務時,它只需調用GOI提供的三大聲明式原語接口:

      • 訪問(Access):通過visit接口,直接聲明要訪問的目標功能控件ID 。GOI會自動計算路徑并完成導航。
      • 狀態(State):通過set_scrollbar_pos(), select_lines()或select_controls()等接口,直接聲明控件要達到的最終狀態。例如,將滾動條直接設置到80%的位置,而無需模擬拖拽。
      • 觀察(Observation):通過get_texts()等接口,直接獲取控件的結構化信息,而無需LLM進行像素級的屏幕內容識別。

      這些接口不依賴于特定應用程序對外暴露”API”,而是直接基于GUI和操作系統的通用可訪問性實現。

      實驗效果:從“機制性”錯誤到“策略性”錯誤

      為了驗證GOI的真實能力,研究團隊在包含Word、Excel和PowerPoint的OSWorld-W基準測試集上進行了全面評估。

      結果顯示,GOI帶來了壓倒性的性能提升。在使用GPT-5推理模型的核心設置下,成功率從44%飆升至74%

      此外,超過61%的成功任務,Agent只用了一次LLM調用就“一遍過”,高效完成了用戶的核心意圖。



      更有趣的是失敗分析

      對于使用GUI的基線,53.3%的失敗都屬于機制層面的錯誤,比如通過視覺等信息對控件進行定位和識別時發生了錯誤、導航規劃錯誤、在與控件進行交互時發生錯誤等。這就像一個人因為不認識路而失敗。

      引入GOI后,81%的失敗集中到了策略層面,例如對任務的語義理解有誤,對圖片內容的語義分析有誤,或者對控件功能的認知出現偏差。

      這意味著GOI成功地將LLM從繁瑣的機制中解放了出來,降低了機制原因導致失敗的可能。LLM不再輕易犯“低級錯誤”,更集中于LLM自身的語義理解能力。這好比于,LLM定位錯了目的地,而不是因為不認識路而失敗。



      團隊表示,GOI的提出,為設計更適合大模型的交互范式指明了清晰方向。

      這項工作不僅為提升現有Agent的性能提供了解決思路,也啟發我們思考:

      未來的操作系統和應用程序,是否應該原生提供這種“LLM友好”的聲明式接口,從而為更強大、更通用的AI Agent鋪平道路。

      論文地址:https://arxiv.org/abs/2510.04607

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      吳京《鏢人》官宣,謝霆鋒李連杰甘愿作配,票房能否破50億?

      吳京《鏢人》官宣,謝霆鋒李連杰甘愿作配,票房能否破50億?

      娛樂圈筆娛君
      2025-11-05 14:27:27
      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      牛牛叨史
      2025-11-05 14:11:53
      陜西高二女生午休時操場產子,調查后發現,孩子父親身份不簡單

      陜西高二女生午休時操場產子,調查后發現,孩子父親身份不簡單

      蘇大強專欄
      2024-07-18 20:34:57
      利潤36億的光纖龍頭,股價從27元跌到10元,匯金公司持股10億

      利潤36億的光纖龍頭,股價從27元跌到10元,匯金公司持股10億

      投資觀
      2025-11-06 08:20:03
      四川首次迎來“春秋假”,家長卻發長文阻撓:雙職工家庭吃不消了

      四川首次迎來“春秋假”,家長卻發長文阻撓:雙職工家庭吃不消了

      熙熙說教
      2025-11-05 21:17:49
      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      風信子的花
      2025-10-24 23:59:39
      山姆翻車再上熱搜!商品頭圖全是假的,網友刷屏“辭退高管”

      山姆翻車再上熱搜!商品頭圖全是假的,網友刷屏“辭退高管”

      雷科技
      2025-11-04 14:50:05
      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      緬甸突襲KK園區后爆“招聘潮”,有人被7萬美元轉賣

      紅星新聞
      2025-11-05 13:06:13
      被曝核酸造假,半年斂財4.5億,核酸大王張核子最終下場如何?

      被曝核酸造假,半年斂財4.5億,核酸大王張核子最終下場如何?

      蜉蝣說
      2025-10-05 23:57:52
      就在今天!11月6日凌晨,NBA傳來哈登、巴圖姆、祖巴茨新消息!

      就在今天!11月6日凌晨,NBA傳來哈登、巴圖姆、祖巴茨新消息!

      皮皮觀天下
      2025-11-06 04:53:27
      足協官宣!邵佳一出任國足主帥,力壓三位洋帥,首位80后主帥

      足協官宣!邵佳一出任國足主帥,力壓三位洋帥,首位80后主帥

      奧拜爾
      2025-11-05 17:47:07
      李兆會的18年復仇路

      李兆會的18年復仇路

      詩意世界
      2025-10-10 14:09:20
      2026年開始,走十年大運的三個星座,財旺人旺,人生迎來驚人轉折

      2026年開始,走十年大運的三個星座,財旺人旺,人生迎來驚人轉折

      小晴星座說
      2025-11-05 20:06:49
      女同事上班穿丁字褲被拍發網上爆火!這拍到的倒三角大家看是穿反了嗎?

      女同事上班穿丁字褲被拍發網上爆火!這拍到的倒三角大家看是穿反了嗎?

      經典段子
      2025-11-05 22:36:41
      曼城勝多特,巴薩平布魯日,歐冠積分榜更新,一隊表現令人驚訝。

      曼城勝多特,巴薩平布魯日,歐冠積分榜更新,一隊表現令人驚訝。

      汪茫的創業之路
      2025-11-06 08:04:00
      2-0,亞洲勁旅完勝巴西,晉級U17女足世界杯決賽,俞正香梅開二度

      2-0,亞洲勁旅完勝巴西,晉級U17女足世界杯決賽,俞正香梅開二度

      側身凌空斬
      2025-11-06 01:37:02
      美專家:抗美援朝若讓粟裕代替彭德懷領兵,輸的更慘!僅憑三點

      美專家:抗美援朝若讓粟裕代替彭德懷領兵,輸的更慘!僅憑三點

      南書房
      2025-10-26 14:22:44
      特斯拉在德國銷量“腰斬”:10月僅賣出750輛,比亞迪卻狂漲9倍

      特斯拉在德國銷量“腰斬”:10月僅賣出750輛,比亞迪卻狂漲9倍

      IT之家
      2025-11-05 21:34:10
      為什么有的男生被拒絕之后就變冷淡了?網友的回答太真實了

      為什么有的男生被拒絕之后就變冷淡了?網友的回答太真實了

      墻頭草
      2025-11-06 08:04:27
      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      蜉蝣說
      2025-11-05 14:48:10
      2025-11-06 10:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      美最高法院就關稅政策合法性展開辯論 美財長罕見出席

      頭條要聞

      美最高法院就關稅政策合法性展開辯論 美財長罕見出席

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      本地
      親子
      房產
      數碼
      公開課

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      親子要聞

      娃無效作業太多,要不要偷偷幫他寫?

      房產要聞

      江東,給你留「門」兒了!

      數碼要聞

      小米通話12月3日停止服務:用戶數據將被徹底清除

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精选国产av精选一区二区三区| 欧美午夜小视频| 少妇人妻av无码专区| 极品少妇的粉嫩小泬看片| 亚洲国产精品成人综合色在 | 无码内射中文字幕岛国片| 精品国偷自产在线视频99| 亚洲an日韩专区在线| 精品麻豆国产色欲色欲色欲WWW| 阜阳市| 蜜臀av一区二区国产精品| 亚洲国产一区二区三区久| 熟女少妇精品一区二区| 资源在线观看视频一区二区| 国产色视频一区二区三区| 久久婷婷综合色一区二区| 亚洲欧洲日韩国内高清| 国自产在线精品一本无码中文| 久久精品国产蜜臀av| 日韩亚洲国产中文字幕欧美| 视频一区视频二区卡通动漫 | 欧美和黑人xxxx猛交视频| 在线观看无码av五月花| 亚洲精品成人老司机影视| 欧美精品18videosex性欧美| 日韩乱码人妻无码中文字幕视频| 欧美色综合天天久久综合精品| 一个人看的www视频免费观看| 18禁在线一区二区三区| 亚洲精品中文字幕二区| 成人看的污污超级黄网站免费 | 一级片免费网站| 免费午夜无码片在线观看影院 | 无码乱人伦一区二区亚洲| 一本一道av中文字幕无码| 成人天堂资源www在线| 免费无码国模国产在线观看| 苍井空毛片精品久久久| 龙口市| AV无码不卡一区二区三区| 亚洲成在人线AV品善网好看|