<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI Agent、傳統聊天機器人有何區別?這篇30頁綜述講明白了

      0
      分享至



      論文作者包括來自上海交通大學的朱家琛、芮仁婷、單榕、鄭琮珉、西云佳、林江浩、劉衛文、俞勇、張偉楠,以及華為諾亞研究所的朱夢輝、陳渤、唐睿明。

      本文第一作者是朱家琛,上海交通大學博士生,主要研究興趣集中在大模型推理,個性化 Agent。本文通訊作者是張偉楠,上海交通大學教授,研究方向包含強化學習、數據科學、機器人控制、推薦搜索等。

      自從 Transformer 問世,NLP 領域發生了顛覆性變化。大語言模型極大提升了文本理解與生成能力,成為現代 AI 系統的基礎。而今,AI 正不斷向前,具備自主決策和復雜交互能力的新一代AI Agent也正加速崛起。

      不同于以往只會對話的 LLM 機器人,AI Agent 能夠接入互聯網、調用各類 API,還能根據真實環境反饋靈活調整策略。AI Agent 因此具備了感知環境和自主決策的能力,已經突破了傳統 “問答模式” 的限制,能夠主動執行任務、應對各種復雜場景,真正成為用戶身邊可靠的智能助手。

      在這股 AI Agent 浪潮中,每個人都可以有屬于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足夠強大呢?海量的 Agent 評測方式層出不窮,你是否挑得眼花繚亂?如何在這千軍萬馬中挑選出最適合你的測評方式呢?作為 AI Agent 的開發者,你是否也在思考該從哪個角度來提升你的 “秘密武器”,在這場激烈的 AI Agent 大戰中脫穎而出?

      因此,這引出了一個順理成章的問題:

      AI Agent 到底和傳統聊天機器人有何本質區別?又該如何科學評測 AI Agent?



      • 論文標題:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
      • 論文鏈接:https://arxiv.org/pdf/2506.11102

      一、從 LLM Chatbot 到 AI Agent

      論文指出,AI Agent 的出現是 AI 發展的新階段。它們不僅僅回復人類對話,還具備了五個維度的進化:

      1.復雜環境:Agent 不再局限于單一對話場景,可以與代碼庫、網頁、操作系統、移動端、科學實驗等各類環境交互。

      2.多源指令:Agent 不只接收人工輸入,還能結合自我反思、智能體協作等多源指令。

      3.動態反饋:Agent 運行于連續多樣的反饋環境,可基于指標、獎勵等動態反饋持續優化自身能力,不再局限于被動對話糾正。

      4.多模態:Agent 擁有跨模態處理能力,能理解文本、視覺、聽覺等多種數據。

      5.高級能力:隨著外部環境復雜化,Agent 具備了復雜規劃、持久記憶、自主推理等能力,實現從被動響應到自主執行的躍遷。



      圖 1:AI Agent 與 LLM Chatbot 演化的五個維度。

      LLM Chatbot 向 AI Agent 的演進,背后主要受兩方面推動:一是外部環境的日益復雜,二是內部能力的不斷提升。復雜的外部環境促使 Agent 不斷成長,而 Agent 能力的提升又推動人們去探索更具挑戰性的應用場景。正是這種內外循環、相互促進,成為現代 AI Agent 加速進化的根本動力。因此,論文的總體框架如圖 2 所示:我們系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類學。隨后進行趨勢討論,對 Agent 評測方法演化趨勢的討論,涉及環境角度,Agent 角度,評估者角度,指標角度,并最終提出基準選擇的方法論。



      圖 2:論文框架總覽

      二、評測框架與基準盤點

      面對 Agent 能力的指數級擴展,原有的聊天機器人評測方法已無法勝任。論文系統梳理了現有 AI Agent 評測基準,提出 “環境 - 能力” 兩方面的分類:

      1.環境維度:細分為代碼、網頁、操作系統、移動端、科學、游戲等環境。

      2.能力維度:涵蓋規劃、自我反省、交互、記憶等高級能力。

      針對每種環境與能力,論文整理了當前最具代表性的評測基準,并梳理出一套 “實用屬性表”,幫助研究者在眼花繚亂的 benchmark 中挑選符合要求的。

      以表 1 為例,我們列出了我們認為最重要的屬性:真實性,離線 / 在線,評測者,輸入模態,主要挑戰。并將所有 web 環境的基準歸到這些屬性中。



      表 1:Web 環境下的 Agent 基準以及其各類屬性

      三、AI Agent 評測方法的進化趨勢



      圖 3:AI Agent 評測未來演化的四個視角。

      論文深刻總結了 AI Agent 評測方法的未來趨勢,不再只是 “比誰答得對”,而是從四個關鍵視角全面升級:

      1. 環境視角:從單模態到多模態、從靜態到動態、從少狀態到多狀態。

      最初,Agent 評測只圍繞文本展開,如今則逐漸擴展到圖片、音頻、視頻等多種信息形式。靜態的數據集已經不能滿足需求,動態、實時更新的真實環境成為新常態。同時,評測方式也在轉變,開始關注智能體在連續任務過程中的表現和調整,而不再只看最終結果。

      2. 智能體視角:從單 Agent 到多 Agent、從單輪到多輪互動。

      新一代評測不僅關注單個 Agent 的能力,更重視多個 Agent 間的協作與博弈。與此同時,任務由簡單的一問一答,演化為多輪對話、持續推理和復雜任務鏈,考驗 Agent 的全局規劃與長期記憶。

      3. 評測者視角:從人工到 AI 自動評測、從通用到個性化。

      AI 不再只是被動接受人類評分,越來越多的 Agent 可以自動評判同行,實現規模化、自主化評測。同時,未來的評測將更加關注個性化,衡量 Agent 是否能針對不同用戶給出個性化的服務。

      4. 指標視角:從粗粒度到細粒度,從關注正確率到關注效率、安全與社會價值。

      單一的正確率已無法反映 Agent 真實能力。未來評測更強調任務效率、細粒度決策的質量、安全性和倫理性,比如防止誤操作、保障用戶利益、促進社會善意等。

      四、行動指南:

      如何選擇合適的 Agent 評測基準

      面對 AI Agent 的快速發展,論文圍繞 “如何用演化視角系統評估 AI Agent” 這一核心問題,提出了一套二階段的基準選擇方法論:

      第一階段:從當下出發。

      根據實際任務環境和 Agent 能力,先鎖定對應的環境和能力分類(圖 2),從屬性表(表 1)中精準匹配最適用的評測基準。例如,開發者 Z 開發了能預訂航班和酒店的 Agent,應優先考慮 Web 環境和交互能力,選用如 WebVoyager 和 ComplexFuncBench 等基準進行測試。

      第二階段:為未來考慮。

      結合評測進化趨勢(圖 3),開發者 Z 應持續關注環境變化、多模態挑戰和社會價值等新維度。隨著產品商業化,適時引入動態環境(如 BFCL)、安全性(如 ST WebAgentBench)和個性化(如 PeToolBench)等多樣化評測基準,確保 Agent 持續優化與進化。

      結語

      AI Agent 正在從 “會對話” 進化為 “會行動”,推動人工智能邁向更智能、更自主、更有價值的下一個時代。而如何科學評測 AI Agent,是驅動這一切的關鍵。如果讀者你也關心如何評測新穎的 AI Agent,我們的綜述值得一讀。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      在西安跑網約車有多難?日均11單,三分之一司機連車租都湊不齊

      在西安跑網約車有多難?日均11單,三分之一司機連車租都湊不齊

      順風車之聲
      2025-11-05 15:46:46
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      美國民主黨人馬姆達尼得票率50.3%當選紐約市長,世界金融中心迎來新掌舵!共和黨候選人柯蒂斯·斯利瓦獲得7.2%的選票

      美國民主黨人馬姆達尼得票率50.3%當選紐約市長,世界金融中心迎來新掌舵!共和黨候選人柯蒂斯·斯利瓦獲得7.2%的選票

      和訊網
      2025-11-05 12:42:07
      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      第一軍情
      2025-11-05 15:40:03
      長沙海信廣場,怎么了?

      長沙海信廣場,怎么了?

      獨角Mall
      2025-11-05 13:35:34
      一種新型 “軟啃老”正在擴散:40歲子女不伸手要錢不蹭住,卻用這2種方式拖垮父母

      一種新型 “軟啃老”正在擴散:40歲子女不伸手要錢不蹭住,卻用這2種方式拖垮父母

      有故事的人
      2025-11-04 06:17:05
      除夕夜,爸爸訂了7人包間,誰知爺爺竟叫來了叔叔一家

      除夕夜,爸爸訂了7人包間,誰知爺爺竟叫來了叔叔一家

      小秋情感說
      2025-11-05 13:43:40
      中國正在上演的詭異經濟

      中國正在上演的詭異經濟

      難得君
      2025-10-29 19:26:55
      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      全紅嬋太權威了!跳水并非必須并腿,她卻死死守住標準,難度翻倍

      念洲
      2025-11-05 17:42:04
      敢跟央視唱反調!《生萬物》被指美化地主,佃戶蠻橫,地主善良?

      敢跟央視唱反調!《生萬物》被指美化地主,佃戶蠻橫,地主善良?

      冷紫葉
      2025-08-27 21:31:18
      南寧破局!8000萬“賣公園”

      南寧破局!8000萬“賣公園”

      廣西地產
      2025-11-05 16:40:03
      70歲大爺和30歲保姆生下兒子,親子鑒定后,大爺卻被自己兒女氣死

      70歲大爺和30歲保姆生下兒子,親子鑒定后,大爺卻被自己兒女氣死

      紙鳶奇譚
      2025-09-08 09:31:42
      政府關門35天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      政府關門35天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      文雅筆墨
      2025-11-05 12:06:55
      剛剛,深圳地鐵致歉!

      剛剛,深圳地鐵致歉!

      南方都市報
      2025-11-05 09:57:10
      不出意外的話!蘇林會成為第二個黎筍

      不出意外的話!蘇林會成為第二個黎筍

      近史談
      2025-11-02 18:54:35
      省級老同志赴鄭州航空港區參觀調研

      省級老同志赴鄭州航空港區參觀調研

      政知新媒體
      2025-11-05 14:51:57
      全網聚焦!原配妻子強勢反攻,這波操作簡直“殺人誅心”

      全網聚焦!原配妻子強勢反攻,這波操作簡直“殺人誅心”

      一杯咖啡語
      2025-11-04 15:08:15
      陪睡陪玩只是冰山一角!繼王家衛被曝后,才懂霍家為何不娶章子怡

      陪睡陪玩只是冰山一角!繼王家衛被曝后,才懂霍家為何不娶章子怡

      一只番茄魚
      2025-11-04 09:26:31
      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      樂悠悠娛樂
      2025-11-05 10:38:51
      北京一副區長停電動車竟遭三連拒

      北京一副區長停電動車竟遭三連拒

      大峰
      2025-11-05 10:20:32
      2025-11-05 19:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      教育
      手機
      藝術
      本地

      壞了,看到劇本殺鼻祖了!

      教育要聞

      中美學校的差距有多大?真實的美國學校是什么樣?

      手機要聞

      天璣9500需求遠超預期!持續領跑高端市場:OPPO、vivo旗艦賣爆了

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产免费高清69式视频在线观看 | 日韩精品亚洲国产成人av| 亚洲码和欧洲码一二三四| 久在线精品视频线观看| 亚洲欧美日韩精品久久亚洲区色播| 国产一区二区av天堂热| 国产福利萌白酱在线观看视频 | 巨胸不知火舞露双奶头无遮挡| 久久夜色精品国产亚洲av| 亚洲精品一区二区美女| 极品尤物被啪到呻吟喷水| 人妻在线无码一区二区三区| 97se亚洲国产综合在线| 亚洲成人av高清在线| 99久久精品费精品国产| 亚洲成人av一区二区| 亚洲中文字幕无码中字| 成人一区二区人妻不卡视频 | 久久综合亚洲鲁鲁九月天| 伊人色综合久久天天小片| 成人av天堂男人资源站| 成人免费无码大片a毛片| 视频一本大道香蕉久在线播放| av无码精品一区二区乱子| 午夜福利在线观看入口| 农民人伦一区二区三区| 国产成人高清精品亚洲| 东京热一精品无码av| 亚洲精品无码久久久影院相关影片| 亚洲男人的天堂久久香蕉| 极品蜜桃臀一区二区av| 国产成人免费午夜在线观看| 国产99久久亚洲综合精品西瓜tv| 欧美老少配性行为| 奇米四色7777中文字幕| 国产精品中文字幕免费| 好湿好紧太硬了我太爽了视频| 国产伦一区二区三区视频| 国产美女MM131爽爽爽| 亚洲中文字幕无码久久精品1| 永久不封国产av毛片|