網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Gemini 2.5 Pro能力再進(jìn)化：谷歌推出專用計(jì)算機(jī)操作模型，讓AI智能體絲滑接管UI交互

2025-10-08 11:44:36　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

谷歌剛剛發(fā)布了一項(xiàng)更新：正式推出Gemini 2.5計(jì)算機(jī)使用模型（Computer Use model）

這是一款基于Gemini 2.5 Pro視覺理解與推理能力構(gòu)建的專用模型，旨在賦予AI智能體（agent）與圖形用戶界面（GUI）直接交互的能力——就像人類一樣進(jìn)行點(diǎn)擊、打字和滾動(dòng)操作

從今天起，Gemini 2.5計(jì)算機(jī)使用模型已開放公開預(yù)覽。開發(fā)者可以通過Google AI Studio和Vertex AI中的Gemini API進(jìn)行訪問和構(gòu)建

https://ai.google.dev/gemini-api/docs/computer-use

https://cloud.google.com/vertex-ai/generative-ai/docs/computer-use

谷歌表示，雖然AI模型可以通過結(jié)構(gòu)化的API與軟件交互，但許多數(shù)字任務(wù)仍需要直接操作圖形界面，例如填寫并提交表單。為了完成這些任務(wù)，AI智能體必須能像人一樣瀏覽網(wǎng)頁和應(yīng)用程序

這種原生填充表單、操作下拉菜單和篩選器等交互元素，以及在登錄后進(jìn)行操作的能力，是構(gòu)建強(qiáng)大通用智能體的關(guān)鍵下一步

如何工作？

該模型的核心能力通過Gemini API中新增的computer_use工具對(duì)外開放，并應(yīng)在循環(huán)（loop）中運(yùn)行

其工作流程如下：

1.輸入：工具的輸入包括用戶請(qǐng)求、當(dāng)前環(huán)境的屏幕截圖以及最近的操作歷史。輸入時(shí)還可以指定排除某些UI操作或加入額外的自定義函數(shù)

2.分析與響應(yīng)：模型分析這些輸入并生成響應(yīng)，通常是一個(gè)代表UI操作（如點(diǎn)擊或輸入）的函數(shù)調(diào)用。對(duì)于購買等特定操作，響應(yīng)中可能還包含一個(gè)請(qǐng)求最終用戶確認(rèn)的步驟

3.執(zhí)行：客戶端代碼執(zhí)行接收到的操作指令

4.反饋與循環(huán)：操作執(zhí)行后，新的GUI屏幕截圖和當(dāng)前URL將作為函數(shù)響應(yīng)發(fā)送回模型，重新啟動(dòng)循環(huán)

這個(gè)迭代過程會(huì)持續(xù)進(jìn)行，直到任務(wù)完成、發(fā)生錯(cuò)誤，或因安全響應(yīng)、用戶決策而終止交互

谷歌指出，Gemini 2.5計(jì)算機(jī)使用模型主要針對(duì)Web瀏覽器進(jìn)行了優(yōu)化，同時(shí)在移動(dòng)UI控制任務(wù)上也顯示出巨大潛力，但尚未針對(duì)桌面操作系統(tǒng)級(jí)別的控制進(jìn)行優(yōu)化

性能

根據(jù)谷歌公布的信息，Gemini 2.5計(jì)算機(jī)使用模型在多個(gè)Web和移動(dòng)控制基準(zhǔn)測(cè)試中表現(xiàn)出色

其性能優(yōu)于目前市場(chǎng)上的主流替代方案，并在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)了領(lǐng)先。在針對(duì)Online-Mind2Web的Browserbase測(cè)試平臺(tái)上，該模型在瀏覽器控制方面實(shí)現(xiàn)了領(lǐng)先的質(zhì)量和最低的延遲

安全

谷歌稱，在構(gòu)建之初就將負(fù)責(zé)任作為首要原則。能夠控制計(jì)算機(jī)的AI智能體帶來了獨(dú)特的風(fēng)險(xiǎn)，包括用戶的有意濫用、意外的模型行為以及Web環(huán)境中的提示注入和詐騙。

為此，谷歌采取了多項(xiàng)安全措施：

模型內(nèi)置安全特性：直接在模型訓(xùn)練中加入了安全功能，以應(yīng)對(duì)三大核心風(fēng)險(xiǎn)。

開發(fā)者安全控制：

*   逐步安全服務(wù)（Per-step safety service）：一個(gè)模型外的、在推理時(shí)運(yùn)行的安全服務(wù)，用于在模型提議的每個(gè)動(dòng)作執(zhí)行前進(jìn)行評(píng)估。 *   系統(tǒng)指令（System instructions）：開發(fā)者可以進(jìn)一步指定，在執(zhí)行特定類型的高風(fēng)險(xiǎn)操作前，智能體必須拒絕或請(qǐng)求用戶確認(rèn)。

這些控制措施旨在賦能開發(fā)者，防止模型自動(dòng)完成可能損害系統(tǒng)完整性、危及安全、繞過驗(yàn)證碼（CAPTCHA）或控制醫(yī)療設(shè)備等高風(fēng)險(xiǎn)或有害行為

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.