![]()
谷歌剛剛發(fā)布了一項(xiàng)更新:正式推出Gemini 2.5計(jì)算機(jī)使用模型(Computer Use model)
這是一款基于Gemini 2.5 Pro視覺理解與推理能力構(gòu)建的專用模型,旨在賦予AI智能體(agent)與圖形用戶界面(GUI)直接交互的能力——就像人類一樣進(jìn)行點(diǎn)擊、打字和滾動(dòng)操作
從今天起,Gemini 2.5計(jì)算機(jī)使用模型已開放公開預(yù)覽。開發(fā)者可以通過Google AI Studio和Vertex AI中的Gemini API進(jìn)行訪問和構(gòu)建
https://ai.google.dev/gemini-api/docs/computer-use
https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use
谷歌表示,雖然AI模型可以通過結(jié)構(gòu)化的API與軟件交互,但許多數(shù)字任務(wù)仍需要直接操作圖形界面,例如填寫并提交表單。為了完成這些任務(wù),AI智能體必須能像人一樣瀏覽網(wǎng)頁和應(yīng)用程序
這種原生填充表單、操作下拉菜單和篩選器等交互元素,以及在登錄后進(jìn)行操作的能力,是構(gòu)建強(qiáng)大通用智能體的關(guān)鍵下一步
如何工作?
該模型的核心能力通過Gemini API中新增的computer_use工具對(duì)外開放,并應(yīng)在循環(huán)(loop)中運(yùn)行
![]()
其工作流程如下:
1.輸入:工具的輸入包括用戶請(qǐng)求、當(dāng)前環(huán)境的屏幕截圖以及最近的操作歷史。輸入時(shí)還可以指定排除某些UI操作或加入額外的自定義函數(shù)
2.分析與響應(yīng):模型分析這些輸入并生成響應(yīng),通常是一個(gè)代表UI操作(如點(diǎn)擊或輸入)的函數(shù)調(diào)用。對(duì)于購買等特定操作,響應(yīng)中可能還包含一個(gè)請(qǐng)求最終用戶確認(rèn)的步驟
3.執(zhí)行:客戶端代碼執(zhí)行接收到的操作指令
4.反饋與循環(huán):操作執(zhí)行后,新的GUI屏幕截圖和當(dāng)前URL將作為函數(shù)響應(yīng)發(fā)送回模型,重新啟動(dòng)循環(huán)
這個(gè)迭代過程會(huì)持續(xù)進(jìn)行,直到任務(wù)完成、發(fā)生錯(cuò)誤,或因安全響應(yīng)、用戶決策而終止交互
谷歌指出,Gemini 2.5計(jì)算機(jī)使用模型主要針對(duì)Web瀏覽器進(jìn)行了優(yōu)化,同時(shí)在移動(dòng)UI控制任務(wù)上也顯示出巨大潛力,但尚未針對(duì)桌面操作系統(tǒng)級(jí)別的控制進(jìn)行優(yōu)化
性能
根據(jù)谷歌公布的信息,Gemini 2.5計(jì)算機(jī)使用模型在多個(gè)Web和移動(dòng)控制基準(zhǔn)測(cè)試中表現(xiàn)出色
![]()
其性能優(yōu)于目前市場(chǎng)上的主流替代方案,并在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先。在針對(duì)Online-Mind2Web的Browserbase測(cè)試平臺(tái)上,該模型在瀏覽器控制方面實(shí)現(xiàn)了領(lǐng)先的質(zhì)量和最低的延遲
![]()
安全
谷歌稱,在構(gòu)建之初就將負(fù)責(zé)任作為首要原則。能夠控制計(jì)算機(jī)的AI智能體帶來了獨(dú)特的風(fēng)險(xiǎn),包括用戶的有意濫用、意外的模型行為以及Web環(huán)境中的提示注入和詐騙。
為此,谷歌采取了多項(xiàng)安全措施:
模型內(nèi)置安全特性:直接在模型訓(xùn)練中加入了安全功能,以應(yīng)對(duì)三大核心風(fēng)險(xiǎn)。
開發(fā)者安全控制:
* 逐步安全服務(wù)(Per-step safety service):一個(gè)模型外的、在推理時(shí)運(yùn)行的安全服務(wù),用于在模型提議的每個(gè)動(dòng)作執(zhí)行前進(jìn)行評(píng)估。 * 系統(tǒng)指令(System instructions):開發(fā)者可以進(jìn)一步指定,在執(zhí)行特定類型的高風(fēng)險(xiǎn)操作前,智能體必須拒絕或請(qǐng)求用戶確認(rèn)。這些控制措施旨在賦能開發(fā)者,防止模型自動(dòng)完成可能損害系統(tǒng)完整性、危及安全、繞過驗(yàn)證碼(CAPTCHA)或控制醫(yī)療設(shè)備等高風(fēng)險(xiǎn)或有害行為
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.