![]()
2025 年 7 月 18 日北京時間凌晨 1 點,OpenAI 進行了一場直播,介紹了他們最新、最強大的模型。
他們將 DeepResearch 和 Operator 功能合并到一起,打造了一個同時能夠做深度研究和 Browser-Use 的 AI Agent ——ChatGPT Agent。
或者,你可以更簡單地理解為,OpenAI 發布了一個屬于他自己的 “ Manus ”。
由 OpenAI 打造的 AI Agent,按過往經驗來看是面向通用型需求的,無論是從成本角度還是技術角度,預計都會對同一賽道中的對手形成降維打擊。
在直播中,Sam Altman 和四位 Agent 項目的研究員( 此前分別是 Operator 和 DeepResearch 的項目成員 )通過參加婚禮策劃等演示展示了 ChatGPT Agent 的功能,以及在基準測試中的表現。
使用該 Agent 的模式很簡單,只需在 ChatGPT 用戶端點擊工具菜單并選擇 “ Agent ” 就可以。
![]()
ChatGPT Agent 可以獨立使用虛擬計算機來執行復雜的任務,能夠無縫地從思考切換到行動,以及使用各種工具,比如在終端上寫代碼,執行網頁瀏覽,制作 Excel 和 PPT 等等。
首先來一個日常生活的演示:為參加朋友婚禮做準備。
研究員不僅寫明了詳細的需求,還給ChatGPT提供了婚禮網站,以及預訂酒店的網站。
提示詞:
我們的朋友今年晚些時候要結婚了!這就是婚禮網站:XXX
你能幫我找到以下物品嗎:
- 一套符合所有場合著裝要求的服裝(男士)- 推薦五個方案。服裝要包含一些不錯的、中等奢華的物品,要與場地和天氣相符。
- 幫我找一些可以提前幾天預訂的酒店 - 使用 booking.com 預訂,并確保查看空房情況和當前價格。
- 還有,別忘了給他們挑選一份禮物,最好在 500 美元以下
寫一份漂亮的報告
收到提示詞后,ChatGPT Agent 立馬開始執行。
因為需要使用電腦,所以一開始,它需要設置環境,這一步通常需要一兩分鐘,快的話甚至不到 5 秒鐘( 實際演示中為 7 秒 )。準備好環境并理解了提示之后,ChatGPT Agent 會向用戶確認自己的理解是否準確,用戶點擊 “ continue ”,ChatGPT Agent 就會開始工作。

在 ChatGPT Agent 執行任務的時候,用戶可以同步看到它操作計算機屏幕的過程,以及每一步操作相關的思維鏈。

在這個任務中,ChatGPT Agent 最終提供了一份相當全面的報告。
它會根據鏈接確定日期和婚禮場地,并以此來確定西裝的推薦,以及在哪里可以買到,還有房源信息等,它還會提供關于禮物的建議。特別是,ChatGPT Agent 還提供瀏覽結果的屏幕截圖。

在 ChatGPT Agent 執行完任務之后,用戶還可以通過視頻的方式回顧它的執行過程。

ChatGPT Agent 可以使用兩種不同的方式來瀏覽互聯網。一個是文本瀏覽器,類似于 DeepResearch,可以非常高效快速地閱讀和搜索大量網頁。另一個是可視化瀏覽器,類似于 Operator,使得它能夠與網頁 UI 進行實際交互。使用該瀏覽器,ChatGPT Agent 可以執行拖動網頁、使用光標點擊、打開 UI 組件、填寫表單、輸入文本等操作。
OpenAI 團隊表示,這兩個工具互補性很強。
OpenAI 在一月份發布了 Operator,可以執行預訂和發送電子郵件等在線任務。兩周后,OpenAI 又發布了 DeepResearch,可以進行深入的互聯網研究,并輸出高質量的研究報告。
后來,OpenAI 意識到這兩種方法實際上是深度互補的。一方面,Operator 在閱讀超長文章時會遇到一些困難,因為需要滾動,所以很耗時,但這正是 DeepResearch 的強項。另一方面,DeepResearch 在與網頁、交互元素、視覺效果( 高度可視化的網頁 )交互方面又不如 Operator。
OpenAI 在用戶反饋中也了解到,大家最期待的 DeepResearch 功能之一就是能夠登錄網站并訪問經過身份驗證的來源,而 Operator 可以做到這一點。此外,很多用戶在使用 Operator 時的提示,實際上和 DeepResearch 類型的提示很相似。
ChatGPT Agent 的一個關鍵能力是允許隨時打斷執行,并補充新的任務指示。這對于執行復雜且耗時很長的任務來說特別重要,很多時候一開始輸入的提示是不完整的。比如在準備參加婚禮的這個任務中,你可以中途提示模型:你能再幫我找一雙9.5碼的男士黑色鞋嗎?
ChatGPT Agent 也可能會在執行過程中主動要求用戶澄清和確認一些細節。
OpenAI 介紹道,與 Agent 合作過程中要注意的一個關鍵是,模型有時會犯錯誤,“ 這就是為什么訓練模型在重要步驟的最后一步請求用戶的確認很重要。”
例如,在它發送電子郵件之前,它會要求用戶查看草稿,內容是否合理,是否有拼寫錯誤等。如果有,你可以要求它修改,或者直接接管瀏覽器,進入 Agent 的環境自行修改。
所以,ChatGPT Agent 鼓勵的不是完全自主的執行,而是與用戶的深度協作。
ChatGPT 還擁有自己的終端來運行代碼,并能用于生成和分析 PPT、Excel 等文件。
通過終端,它還可以調用 API,包括公共 API 和用于訪問用戶私有數據源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至還可以讓 ChatGPT 調用圖像生成 API 來生成圖像,這樣就可以為 PPT 等內容打造精美的視覺效果。類似 Deep Research Connector,只有當用戶明確連接這些 API 時,它才能使用。

在演示中,OpenAI 的研究員通過讓 ChatGPT Agent 調用 API 操作,生成了 ChatGPT Agent 的基準測試報告。
提示詞:
從我們的 Google Drive 中提取你的評估編號,并制作一些幻燈片。形式保持簡單,沒有引言,沒有結論,只用圖表呈現結果。
模型連接到了 Google Drive API,然后在 API 內進行搜索。第一個結果是相關的,于是模型開始詳細地讀取第一個結果,然后編寫代碼,并使用圖像生成模型來為 PPT 生成圖片。

最終模型生成了一個 PPT 文檔,可以下載并在本地打開。
我們來具體看看 ChatGPT Agent 的基準測試結果。
在 “ 人類最后考試 ”( Humanity's Last Exam,HLE,一個面向人類知識前沿的多模態基準測試 )基準測試中,擁有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(擁有 browser use 和 python 代碼能力)、o3( 擁有 browser use 和 python 代碼能力 ),其性能相比后兩者幾乎翻了一番,達到 42% 的通過率,而沒有工具使用能力的 ChatGPT Agent 和 o3 則是墊底。
FrontierMath 基準測試用于衡量高級數學推理能力,ChatGPT Agent 在這個基準測試中達到了 27% 的通過率,超越了擁有 Python 編碼能力的 o4-mini 和 o3 。
![]()
在 WebArena 基準測試中,ChatGPT Agent 的表現已經很接近人類,并高于 o3 和 4o 。
在 OpenAI 年初推出的 BrowserComp 基準測試( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 顯著優于 o3 和 DeepResearch 模型。
![]()
Spreadsheet Bench 基準測試衡量一定程度上的創建和編輯電子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已經可以完成 30% 的任務,當賦予模型訪問終端中原始 Excel 文件的權限時,性能進一步提升至 45% 。
Internal Banking Benchmark 基準測試評估模型執行 1 到 3 年經驗投資銀行分析師任務的能力,例如為一家財富 500 強公司構建一個三表財務模型。在這項基準測試中,ChatGPT Agent 的表現顯著優于 DeepResearch 和 o3 。
![]()
OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最強大的模型之一,不僅在基準測試中表現出色,而且還能夠推理、瀏覽和處理現實世界的任務,“ 其水平是我們三個月前無法想象的。而它的強大很大程度上來自于瀏覽互聯網的能力。”
OpenAI 官方還強調,從安全方面來看,讓 AI Agent 執行網頁瀏覽仍然是有風險的,“ 互聯網仍然是一個可怕的地方,各種各樣的網絡攻擊、詐騙和網絡釣魚試圖竊取人們的信息,而 Agent 模型也無法幸免于所有這些攻擊。”
“ 我們特別擔心一種叫做 ‘ prompt injection ’ 的新攻擊。假設你讓智能體幫你買書,并輸入你的信用卡信息,智能體可能會偶然進入一個惡意網站,要求它輸入信用卡信息,而這時它可能會照做。”
“ 我們做了很多工作來防止這種情況發生,比如訓練模型忽略可疑網站上的可疑指令,還設置了多層監視器,可以監視 Agent 的運行。我們甚至可以實時更新這些信息,以防范新的攻擊。”
OpenAI 表示,不可能阻止所有風險,所以用戶自己意識到風險的存在仍然是必要的,比如盡量不要分享高度敏感的信息,或合理地使用接管模式。
![]()
OpenAI 還提供了一個有趣的演示,讓 ChatGPT Agent 制定一個最佳行程,以游覽所有 30 個 MLB 球場,最后以詳細的電子表格形式呈現最終計劃。
有趣的是,ChatGPT Agent 真的使用了代碼構建地圖,并成功實現了。

![]()
最后,OpenAI 表示,ChatGPT Agent 將為 Pro、Plus 和 Team 用戶上線。Pro 用戶每月將獲得 400 次查詢,Plus 和 Team 用戶每月將獲得 40 次查詢。Pro 版的部署預計將于本月底完成,Plus 版也將很快完成,Team 版將爭取在本月底前上線企業版和教育版。
“ 我們希望你們會喜歡它。雖然現在還處于初期階段,但我們會迅速改進它,并且我們非常期待看到它后續的發展。”OpenAI 團隊表示。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.