![]()
Agent、Agnet?Agent!說起今年的 AI 浪潮,除了年初 DeepSeek 引領(lǐng)的一波強(qiáng)化學(xué)習(xí)熱,行業(yè)內(nèi)最受關(guān)注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。
不知從什么時(shí)候開始,Agnet 變成了一種萬能公式,什么都可以套進(jìn)去一下。但,Agent 真的有那么好嗎?真的有競爭力嗎?
“ Manus 前陣子剛推出的新功能Wide Research,我覺得非常不具備競爭力,對提高產(chǎn)品競爭力沒有什么用。” 某大型金融企業(yè) AI 技術(shù)專家王顯( 化名 )向知危表示。
從 “ 次日即舊 ” 的榜單到被基礎(chǔ)模型一輪升級清場的產(chǎn)品,2025 年的Agent 創(chuàng)業(yè),熱鬧背后是可憐的留存率與漸趨同質(zhì)的體驗(yàn)。
幾乎所有 Agent 產(chǎn)品都在講 “ 更聰明、更全能、更自動(dòng)化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?
本文,知危把鏡頭拉遠(yuǎn),看看泡沫究竟來自資本驅(qū)動(dòng)、技術(shù)錯(cuò)配,還是場景誤判?
我們將邀請來自大型企業(yè)、創(chuàng)業(yè)公司的多位一線實(shí)踐者,以 Manus 近期的新產(chǎn)品 Wide Research 和公司跑路、撤資事件為引,追問國內(nèi)外 Agent 泡沫亂象現(xiàn)實(shí)、背后的原因,以及未來 Agent 賽道的生存規(guī)則。
在交流過程中,知危發(fā)現(xiàn),通用與垂直的取舍和統(tǒng)合是決定去留的關(guān)鍵。
實(shí)際上,今年 Agent 大火, 主要是在 tool-use 上取得突破,《 知識(shí)圖譜:認(rèn)知智能理論與實(shí)戰(zhàn) 》、《 知識(shí)增強(qiáng)大模型 》與《 比 RAG 更強(qiáng)- 知識(shí)增強(qiáng) LLM 型應(yīng)用程式實(shí)戰(zhàn) 》作者、大模型技術(shù)專家王文廣向知危表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強(qiáng),能夠更高效地從外部獲取信息,以及與外部系統(tǒng)進(jìn)行交互。”
平安保險(xiǎn)技術(shù)平臺(tái)組負(fù)責(zé)人張森森進(jìn)一步向知危解釋道,“ 技術(shù)層面上,協(xié)議逐漸成熟,能力外延擴(kuò)大,可以通過 MCP 協(xié)議等方式應(yīng)用到更多場景。應(yīng)用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執(zhí)行動(dòng)作的轉(zhuǎn)變:過去只是提供答案,現(xiàn)在能幫助完成動(dòng)作。生態(tài)層面也降低了一些成本。”
“ 過去廠商比拼模型參數(shù),現(xiàn)在還要比拼模型加生態(tài)工具的組合能力,市場競爭焦點(diǎn)已經(jīng)發(fā)生轉(zhuǎn)移。”
但這其中,以 Manus 為代表的通用 Agent 類產(chǎn)品一直飽受爭議。
一方面,資本甚是青睞,另一方面,用戶詬病不止。直到最近,Manus 先是跑路,把公司總部從國內(nèi)搬遷到新加坡,隨后推出了 Wide Research 產(chǎn)品,再之后又被曝出將可能因?yàn)榘踩珜彶閱栴}被強(qiáng)制撤銷融資。
在整個(gè)賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質(zhì)疑。
王顯向知危詳細(xì)解釋了為何 Wide Research 缺乏競爭力,“ 第一,Wide Research確實(shí)提高了并行處理的效率,但也非常消耗計(jì)算資源和調(diào)用額度,所以它的定價(jià)非常貴。”
“ 第二,沒有看到它與單體高性能的 Deep Research 在性能準(zhǔn)確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務(wù)后,效果是否真的得到提升。”
“ 最重要的一點(diǎn)是,它仍然沒有解決場景壁壘的問題。”
“ 它沒有專業(yè)數(shù)據(jù)、沒有專屬工具鏈、沒有行業(yè)認(rèn)證、沒有與業(yè)務(wù)深度綁定的集成,也沒有與高價(jià)值業(yè)務(wù)場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構(gòu)建場景護(hù)城河。”
“ 當(dāng)然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透。”
“ 所以在我看來,Manus 自始至今,從產(chǎn)品角度而言,思路是完全失敗的。”
AI 技術(shù)專家和創(chuàng)業(yè)者陳為也基本持一致的觀點(diǎn):“ Wide Research 的本質(zhì)是 ‘ 規(guī)模化通用任務(wù)執(zhí)行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題。”
“ 用戶會(huì)發(fā)現(xiàn),當(dāng)他們遇到真正復(fù)雜的問題時(shí),這個(gè)通用 Agent 還是幫不上忙,最終不得不轉(zhuǎn)向?qū)I(yè)的垂直產(chǎn)品或人工服務(wù),導(dǎo)致用戶留存率不高。”
如果擴(kuò)大到任意的通用 Agent,則它們都具備一個(gè)看似有吸引力但實(shí)則致命的特點(diǎn):任務(wù)范圍模糊。
知言吉智 CEO 付瑞吉向知危表示,“ 任務(wù)范圍模糊一定會(huì)對產(chǎn)品帶來不利的影響。一方面,當(dāng)一個(gè) Agent 宣稱能做所有事情時(shí),它往往在任何一個(gè)領(lǐng)域都做不到最好;另一方面,任務(wù)范圍模糊,意味著用戶對于這個(gè) Agent 到底能幫自己解決什么問題也會(huì)有困惑,那么這個(gè)產(chǎn)品的認(rèn)知成本就非常高。”
![]()
付瑞吉進(jìn)一步向知危解釋了近期 Agent 泡沫興起的創(chuàng)業(yè)者心態(tài):“ 大模型的出現(xiàn)讓大家覺得開發(fā)門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發(fā)者和創(chuàng)業(yè)公司認(rèn)為將其包裝成一個(gè)能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點(diǎn)就是 ‘ 解決所有問題 ’。但現(xiàn)實(shí)是,目前為止沒有任何一個(gè) Agent 能真正做到這一點(diǎn)。”
王顯更是認(rèn)為這場泡沫的興起是創(chuàng)業(yè)公司和資本共謀的產(chǎn)物,“ Manus 根本不是在做產(chǎn)品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創(chuàng)始人是拿到融資后真正深入場景做產(chǎn)品還是卷錢跑路,只有創(chuàng)始人自己才知道。產(chǎn)品非常失敗,但營銷可以說非常成功。”
付瑞吉補(bǔ)充道,“ 營銷只能負(fù)責(zé)將大眾的注意力吸引過來,但 Agent 不同于內(nèi)容類的產(chǎn)品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實(shí)際問題的,如果用戶發(fā)現(xiàn)產(chǎn)品 ‘ 華而不實(shí) ’,則很難留存。”
沐瞳科技大數(shù)據(jù)負(fù)責(zé)人薛趙明則認(rèn)為這種產(chǎn)品模式有一定合理性,但還是要區(qū)分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個(gè)多樣性也代表了用戶選擇的多樣性,產(chǎn)品力不足的會(huì)很快在市場的浪潮中褪去,因?yàn)檫@是一個(gè)非常燒錢的賽道,沒有用戶的沉淀和付費(fèi)是很難長期堅(jiān)持的。ToB 又是另一個(gè)商業(yè)邏輯,必須強(qiáng)調(diào)可落地和可交付,否則便是無用的。”
王顯以 Wide Research 為例解釋了為何通用 Agent 產(chǎn)品現(xiàn)階段對于企業(yè)用戶無用,“ 對于企業(yè)而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結(jié)果的,它們之間的協(xié)調(diào)協(xié)議和調(diào)度機(jī)制也不明確。那我最后怎么去做審計(jì)呢?作為企業(yè),我必須審計(jì)這個(gè)過程是否合規(guī),以及在執(zhí)行過程中到底發(fā)生了什么。所以我沒辦法信任它給出的最終結(jié)果。”
“ 尤其是在金融行業(yè),我們可能花了很長時(shí)間跑出一個(gè)結(jié)果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個(gè)結(jié)果就去執(zhí)行。”
Manus 雖然接受了中外多個(gè)基金的投資,但運(yùn)營主要面向海外市場,而且總部已經(jīng)搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。
但聚焦到國內(nèi),情況也并不樂觀,甚至可以說有太多相似之處。
薛趙明表示,“ 實(shí)際上,當(dāng)前無論是創(chuàng)業(yè)公司,還是一線的云廠商的產(chǎn)品,大部分的產(chǎn)品都還是在一個(gè)特定場景下去演示,真正的規(guī)模化落地還是偏少。”
張森森表示,“ 國內(nèi)很多 Agent 產(chǎn)品功能繁多,但基本都是快速堆疊,痛點(diǎn)不聚焦。”
“ 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產(chǎn)品,不乏大廠參與其中。它們都有通用 Agent 的特點(diǎn),功能多但不精。寫代碼準(zhǔn)確率不高,數(shù)據(jù)分析缺少可解釋性,設(shè)計(jì)產(chǎn)出質(zhì)量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實(shí)現(xiàn)。很少有明確與工作流、KPI 綁定的可交付結(jié)果。”
“ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業(yè)務(wù)牌照 ),比如炒股平臺(tái),會(huì)提供所謂的智能投顧功能。當(dāng)我打開某只股票時(shí),它可能提示該股票出現(xiàn)‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準(zhǔn)確性。”
“ 因?yàn)樗皇钦涍^去的一些市場信息,而二級市場的信息來源非常多,決策點(diǎn)也很多,這類產(chǎn)品完全無法體現(xiàn)這些復(fù)雜因素。看起來像是做了一個(gè)智能投顧,但實(shí)際上既沒有真正實(shí)現(xiàn)投資組合優(yōu)化、風(fēng)險(xiǎn)控制,也無法對接交易系統(tǒng),無法支撐其宣傳的定位。”
“目前市面上沒有一家能真正把智能投顧功能做好。實(shí)際上,大部分經(jīng)紀(jì)公司都有相關(guān)部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發(fā),完成后立刻做宣傳,聲稱接入了大模型并具備某種能力。”
“但這里的問題在于,他們的宣傳能力與實(shí)際能力并不匹配,并非能力完全無用,而是存在明顯落差。”
王文廣表示,“ 成功演示的往往是任務(wù)中那 20% 的標(biāo)準(zhǔn)化部分,而真正構(gòu)成工作核心的,是那 80% 的、充滿‘長尾異常’的復(fù)雜現(xiàn)實(shí)。”
就連大家目前普遍主動(dòng)或被動(dòng)接觸過的AI搜索,其實(shí)也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復(fù)雜工具,但是多輪使用復(fù)雜工具( 例如搜索工具 )的能力還沒有達(dá)到生產(chǎn)可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時(shí)刻。”
白鯨開源 CEO 郭煒向知危總結(jié)道,“ 目前整體來看,各種 Agent 產(chǎn)品給人的驚喜度確實(shí)不夠。因?yàn)楝F(xiàn)在 Agent 技術(shù)本身還沒有進(jìn)入成熟或真正可用階段,技術(shù)生態(tài)不完善。甚至關(guān)于Agent 的理念,大家都還沒有想清楚。”
“ 國內(nèi)大多數(shù)所謂的 Agent 其實(shí)并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產(chǎn)品還沒有出現(xiàn)。國內(nèi)品牌都是如此。”
“ 換句話說,現(xiàn)在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機(jī)器人流程自動(dòng)化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺。”
這種 “ 名不副實(shí) ”的現(xiàn)象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業(yè)中已非常普遍。
“ 這是 ‘ 能力泡沫 ’ 的直接產(chǎn)物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。最直接的例子是,有權(quán)威報(bào)道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業(yè),都在掛智能體的羊頭賣 RPA 的狗肉。”
Gartner 今年 6 月的市場分析報(bào)道表明,其在測試的 ‘ 數(shù)千款 ’ 所謂的 Agent 產(chǎn)品中,只有約 130 款真正符合標(biāo)準(zhǔn)。
“ 所以,可以做個(gè)簡單的排除法,尋找智能體或大模型落地的供應(yīng)商,首先排除掉以往做過 RPA 的企業(yè),這可以避免一半的坑。投資也是一樣。”
王文廣還總結(jié)了 C 端和 B 端 Agent 泡沫的一般特征,“ToC 泡沫主要由對 ‘ 通用個(gè)人助理 ’ 的夢想驅(qū)動(dòng),ToB 泡沫更多是由企業(yè)的提高生產(chǎn)力、降低成本的焦慮所驅(qū)動(dòng)。”
“ ToC 的這種愿景極具吸引力,容易引發(fā)病毒式傳播和媒體的廣泛關(guān)注,從而在短期內(nèi)催生出極高的估值和用戶增長預(yù)期,但當(dāng)產(chǎn)品體驗(yàn)達(dá)不到預(yù)期,用戶會(huì)毫不猶豫地離開。”
“ ToB 領(lǐng)域則由于企業(yè)軟件的銷售周期長、決策鏈條復(fù)雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現(xiàn)。”
如果將國內(nèi)外的 Agent 泡沫現(xiàn)象綜合起來,則又是另一番景象。
張森森解釋道,“ 國內(nèi)外的 Agent 泡沫表現(xiàn)并不相同。比如美國,其優(yōu)勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費(fèi)級助手類 Agent 的投資方可能來自硅谷大基金。這些機(jī)構(gòu)在早期投資時(shí),美國對數(shù)據(jù)安全還沒有嚴(yán)格限制。但隨著數(shù)據(jù)隱私法比如 GDPR、CCPA 等監(jiān)管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規(guī)與差異化投入,結(jié)果加快了行業(yè)洗牌速度,把不少做通用型 APP 的企業(yè)淘汰出局。”
“ 國內(nèi)的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業(yè)受補(bǔ)貼、國產(chǎn)化等政策影響,同時(shí)市場內(nèi)卷嚴(yán)重,用戶更注重實(shí)用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創(chuàng)公司迅速倒閉,一些去年還在討論的公司今年已經(jīng)消失,泡沫破滅速度會(huì)很快。”
![]()
當(dāng)前的 Agent 產(chǎn)品普遍缺陷明顯,可以從產(chǎn)品、工程、場景等多方面理解。
產(chǎn)品層面主要是可靠性不足。對于為何大部分 ToC Agent 產(chǎn)品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因?yàn)樗€不如直接用 APP。真正的 Agent 應(yīng)該比 APP 更方便、更簡單。”
“ 而如果是 To B 產(chǎn)品,必須比現(xiàn)有軟件更簡單、準(zhǔn)確、方便。本來用戶點(diǎn)三下鼠標(biāo)就能完成的事,現(xiàn)在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點(diǎn)擊的工作。這樣的體驗(yàn)讓人寧愿直接點(diǎn)鼠標(biāo)。”
王文廣表示,“ 換句話說,最根本的原因是,對于大多數(shù)真實(shí)世界任務(wù),用戶為驗(yàn)證和修正 AI Agent 輸出所付出的心智成本和時(shí)間成本,超過了 Agent 本身所節(jié)省的成本。”
“ ‘ 通用個(gè)人助理 ’ 承諾的是一個(gè)科幻級別的未來。其所要處理的任務(wù),如預(yù)訂家庭旅行、管理個(gè)人財(cái)務(wù)、安排重要會(huì)議,都具有一個(gè)共同點(diǎn):高信任要求。例如,用戶需要確信 Agent 不會(huì)訂錯(cuò)機(jī)票、不會(huì)泄露財(cái)務(wù)信息、不會(huì)搞砸會(huì)議時(shí)間。”
“ 然而,當(dāng)前大模型的 ‘ 幻覺 ’、知識(shí)陳舊等問題和 Agent 執(zhí)行的脆弱性,使得其可靠性極低。”
“ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩(wěn)定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個(gè)聊天機(jī)器人講錯(cuò)一個(gè)歷史知識(shí),但絕不能容忍一個(gè) Agent 訂錯(cuò)一張機(jī)票。”
而且目前 Agent 產(chǎn)品有從訂閱制走向按結(jié)果付費(fèi)的趨勢,這其實(shí)也給通用 Agent 創(chuàng)業(yè)公司帶來了壓力。 “ 這種商業(yè)模式的演進(jìn),本質(zhì)上是一次風(fēng)險(xiǎn)轉(zhuǎn)移,將產(chǎn)品無效的風(fēng)險(xiǎn)從客戶身上轉(zhuǎn)移到了服務(wù)提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風(fēng)險(xiǎn)。反倒是 ToB 領(lǐng)域,可以選擇合適的場景,通過效果所創(chuàng)造的價(jià)值進(jìn)行分成,是有利的。”
張森森從工程角度總結(jié)了許多 Agent 產(chǎn)品無法落地的原因:“ 第一,真實(shí)環(huán)境非常復(fù)雜,不可能像實(shí)驗(yàn)環(huán)境那樣數(shù)據(jù)干凈。現(xiàn)實(shí)中數(shù)據(jù)質(zhì)量往往較差,接口口徑不一致。”
“ 第二,很多接口需要跨系統(tǒng)權(quán)限訪問,要做 SSO( 單點(diǎn)登錄 ),還涉及數(shù)據(jù)脫敏,這些環(huán)節(jié)很容易卡住,導(dǎo)致平臺(tái)間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統(tǒng)自動(dòng)化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導(dǎo)致頻繁重試。”
“ 第三,存在狀態(tài)和記憶缺失的問題。就像長鏈路任務(wù)中缺乏持久狀態(tài),上下文無法保存,狀態(tài)機(jī)失效,無法接著上次任務(wù)繼續(xù),只能從頭開始。”
“ 第四,缺少驗(yàn)證和回滾機(jī)制,沒有二次校驗(yàn)或回滾策略。”
“ 第五,SLA( 服務(wù)商與客戶之間對質(zhì)量標(biāo)準(zhǔn)、性能指標(biāo)等的約定 )和成本存在約束。企業(yè)使用時(shí)必須考慮成本,服務(wù)需要有保障,確保 TCO( 總擁有成本 )大于業(yè)務(wù)收益。”
“ 第六,缺乏合規(guī)與審計(jì)能力。生產(chǎn)過程要可追溯、可解釋,并具備權(quán)限與操作流程控制。但在各個(gè)平臺(tái)的演示中幾乎看不到這一點(diǎn),而這恰恰是企業(yè)最重要的需求。”
在場景層面,郭煒認(rèn)為,這個(gè)原因可以非常簡單,“ 沒有真正深入到用戶場景中去做。”
“ 大部分 Agent 仍是由處在特別早期階段的創(chuàng)業(yè)者在推動(dòng)。但真正有價(jià)值的 Agent,需要在某個(gè)業(yè)務(wù)領(lǐng)域有深厚積累的人或公司來做。”
張森森持相似觀點(diǎn),“ 實(shí)際上,國內(nèi)外當(dāng)前都太把技術(shù)當(dāng)回事了,太關(guān)注技術(shù)使得大家在做大模型和Agent都是圍繞技術(shù)來構(gòu)建的。通俗來說就是,技術(shù)有什么東西,我做什么東西。”
王文廣補(bǔ)充道,“ 當(dāng)前,AI 公司往往不了解業(yè)務(wù),業(yè)務(wù)公司則沒有準(zhǔn)確理解AI智能體技術(shù)。對 AI 方或業(yè)務(wù)方來說,都應(yīng)該了解技術(shù)邊界,知道智能體能做什么不能做什么,同時(shí)結(jié)合業(yè)務(wù),才會(huì)做好這事。”
但 Agent 不只是獨(dú)立地去攻克一個(gè)個(gè)場景就可以了,其帶來的變革是生態(tài)級別的。
郭煒表示,“ Agent 本身是一個(gè)大的生態(tài),就像軟件或 SaaS 生態(tài)一樣。未來它會(huì)形成一個(gè)完整的生態(tài)體系,只有這個(gè)生態(tài)真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時(shí)代承接并轉(zhuǎn)化原有生態(tài)。”
“ 這個(gè)生態(tài)規(guī)模很大。以 ToC 的手機(jī)端為例,目前手機(jī)端還沒有出現(xiàn)通用型APP,需要在垂直領(lǐng)域中出現(xiàn)對應(yīng)的 Agent,例如類似國內(nèi)的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態(tài)的第一層。”
“ 生態(tài)的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個(gè)入口。”
“ 而入口之爭本質(zhì)是流量之爭,而不是技術(shù)或產(chǎn)品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領(lǐng)域占據(jù)優(yōu)勢。”
從這個(gè)角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認(rèn)為,他指出應(yīng)用層的創(chuàng)業(yè)公司沒有機(jī)會(huì)去搶占這個(gè)流量入口。
也就是說,創(chuàng)業(yè)公司無法繞過生態(tài)的第一層,直接跳到第二層,成為流量入口。“ 創(chuàng)業(yè)公司現(xiàn)有的 Agent 產(chǎn)品要結(jié)合到生態(tài)鏈中去,比如蘋果或者微信的生態(tài),再把AI能力融合進(jìn)去,相當(dāng)于通過 AI 對已有生態(tài)鏈做增強(qiáng)。要實(shí)現(xiàn)這一點(diǎn),要么擁有場景,要么擁有數(shù)據(jù)。”
如果想直接跳躍到第二層生態(tài),就會(huì)面臨 Manus 當(dāng)前的困境,“ 從用戶視角來看,Manus 這類產(chǎn)品已經(jīng)出現(xiàn)用戶數(shù)量下滑、使用意愿不足的情況。無論是創(chuàng)業(yè)公司還是老牌公司,首先要解決的就是生存問題。產(chǎn)品必須有正向 ROI,要能價(jià)值兌現(xiàn),且使用成本不能太高。但 Manus 的產(chǎn)品正好存在價(jià)值兌現(xiàn)不足的問題,而且時(shí)間、學(xué)習(xí)和金錢成本都過高。”
王顯還認(rèn)為,流量入口也不是 OpenAI 這類公司的發(fā)展方向。“ OpenAI 是創(chuàng)業(yè)公司,但也是大模型廠商,肯定不會(huì)去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產(chǎn)品,特征是注重體驗(yàn)、規(guī)模化和生態(tài)擴(kuò)展。他們的目標(biāo)是底層基礎(chǔ)設(shè)施供應(yīng),同時(shí)在 C 端和長尾 B 端場景做推廣。”
郭煒表示,“ 像蘋果這樣的公司,天然具備優(yōu)勢去打造移動(dòng)端的完全通用型 Agent。理想狀態(tài)下,用戶只需說一句 ‘ 幫我訂一張去上海的機(jī)票 ’,通用助手Agent 就能自動(dòng)調(diào)用多個(gè) APP 或 Agent 服務(wù)協(xié)同完成整個(gè)流程。”
“ 在 ToB 領(lǐng)域也是類似的邏輯,每個(gè)垂直方向的 SaaS 都會(huì)出現(xiàn)對應(yīng)的 Agent,需要是真正意義上屬于 Agent 時(shí)代的軟件,之后才會(huì)出現(xiàn)入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領(lǐng)域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會(huì)損失大量信息,導(dǎo)致結(jié)果不準(zhǔn)確,無法滿足客戶需求。”
“ 現(xiàn)階段應(yīng)優(yōu)先在垂直領(lǐng)域啟動(dòng) Agent 落地,無論是 To B 還是 To C,都應(yīng)在原有賽道中先行深耕,逐步培育生態(tài)。”
![]()
以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現(xiàn)象的根本,還是在技術(shù)受限、行業(yè)規(guī)律甚至一些痼疾的背景下,創(chuàng)業(yè)公司和大廠對 Agent 產(chǎn)品在生態(tài)中的定位有著錯(cuò)誤的認(rèn)識(shí)。
接下來,知危將對這些背景進(jìn)行更加細(xì)致的闡述。
其中,技術(shù)受限包括 MCP 協(xié)議限制、AI 幻覺限制、多智能體擴(kuò)展限制、上下文長度限制、大模型智能限制等。
行業(yè)規(guī)律、痼疾則指向資本炒作、大模型行業(yè)競爭的殘酷規(guī)律以及國內(nèi)特有的老問題。
![]()
郭煒表示,“ 關(guān)于使用 MCP Server 會(huì)導(dǎo)致信息損失,這一點(diǎn)非常重要。最終,Agent 應(yīng)該采用 A2A( Agent to Agent )的協(xié)議,服務(wù)于垂直Agent之間的通信,才能完整完成任務(wù)。”
“ 而 MCP 是通用 Agent 與外部數(shù)據(jù)源之間的通信協(xié)議。當(dāng)調(diào)用 MCP 時(shí),不可避免地會(huì)將自然語言信息轉(zhuǎn)換成結(jié)構(gòu)化的 query 或結(jié)構(gòu)化的 ADB 請求來執(zhí)行操作,這一轉(zhuǎn)換的準(zhǔn)確率需要由調(diào)用方來保證。但通用 Agent 要在專業(yè)領(lǐng)域內(nèi)準(zhǔn)確地將專業(yè)詞匯翻譯成精確指令,再交由原有程序執(zhí)行,在現(xiàn)實(shí)中非常困難。”
“ 以我們正在做的 Data Agent 為例,這項(xiàng)工作需要較長時(shí)間推進(jìn),因?yàn)楸仨氉缘紫蛏贤瓿山ㄔO(shè)。過去的數(shù)據(jù)底層通常是裸數(shù)據(jù),例如 CSV 文件,里面是各種原始數(shù)據(jù)。未來需要將這些數(shù)據(jù)轉(zhuǎn)化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費(fèi)。因此必須了解企業(yè)所有表的字段含義及數(shù)據(jù)意義,需要非常專業(yè)的數(shù)據(jù)獲取廠商來完成。”
“ 例如,‘ 消費(fèi)金額 ’ 必須明確對應(yīng)哪個(gè)系統(tǒng)、什么業(yè)務(wù)的消費(fèi)金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費(fèi)金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統(tǒng)中的特定交易表及其規(guī)則。比如讓 MCP Server 將請求翻譯成 SQL 再下發(fā)到 Salesforce 查詢數(shù)據(jù),但它并不知道 ‘ 消費(fèi)金額 ’ 在當(dāng)前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統(tǒng)。它甚至不了解 Salesforce、SAP 分別是什么。”
“ 這不僅是當(dāng)前 Agent 技術(shù)無法實(shí)現(xiàn)的,甚至人類在缺乏上下文的情況下也很難完成。”
“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實(shí)現(xiàn)的,而必須由基于 A2A 的多個(gè)專業(yè)領(lǐng)域的 Agent 相互協(xié)作( Agent + Agent )實(shí)現(xiàn)。”
“ 相比之下,提示詞專業(yè)性、token 成本爆炸等都是更加次要的,會(huì)隨著時(shí)間自然解決。”
![]()
Agent 還有一個(gè)永遠(yuǎn)無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
“ 在現(xiàn)有大模型技術(shù)下,有許多場景嘗試進(jìn)行完全 Agent 化,但效果并不理想。”
“ 以自動(dòng)編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進(jìn)行檢驗(yàn)和監(jiān)督。否則一旦幻覺出現(xiàn)且缺乏有效控制,風(fēng)險(xiǎn)極高。例如,近期某公司在使用自動(dòng)化工具 Replit 時(shí)出現(xiàn)誤操作,導(dǎo)致數(shù)據(jù)庫被刪除。”
“ 目前也沒有特別好的方式來自動(dòng)定位和追溯幻覺。在校驗(yàn)中,雖然無法校驗(yàn)所有環(huán)節(jié),但可以抽檢一兩個(gè)關(guān)鍵點(diǎn),并用傳統(tǒng)方法或知識(shí)庫進(jìn)行糾錯(cuò)和約束。”
“ 幻覺在前期溝通階段有一定優(yōu)勢,因?yàn)樗赡軒硪恍﹦?chuàng)新性想法。但在企業(yè)落地執(zhí)行階段,應(yīng)盡量控制甚至避免使用大模型。在 Agent 執(zhí)行任務(wù)時(shí),為緩解幻覺,只有借助 workflow 才能保證足夠的確定性。”
“ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發(fā)能力。例如,我自己現(xiàn)在幾乎沒有時(shí)間寫代碼,對一些新發(fā)布的 Python 函數(shù)也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗(yàn)證邏輯是否正確并運(yùn)行,就能快速完成任務(wù)。這種方式不僅比我親自編寫代碼更快,有時(shí)生成的算法思路甚至比我原本設(shè)想的更好。”
王文廣指出,思維鏈的幻覺其實(shí)在 Agent 產(chǎn)品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個(gè)它并未執(zhí)行或執(zhí)行失敗的操作過程。”
“ 它輸出的不是真實(shí)的操作日志,而是它生成的一個(gè) ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經(jīng)成功運(yùn)行了測試,所有測試都通過了 ’,但實(shí)際上它可能根本沒有能力或權(quán)限去運(yùn)行測試,或者實(shí)際測試運(yùn)行失敗了。”
“ 從這點(diǎn)也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當(dāng)做一個(gè)平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個(gè)平面是千瘡百孔的。”
![]()
在 Agent 框架設(shè)計(jì)方面,目前領(lǐng)域內(nèi)有一個(gè)被過分炒作的概念,那就是多智能體。
當(dāng)前實(shí)際應(yīng)用中,智能體之間的交互主要限于兩個(gè)智能體。編程體驗(yàn)后來居上的 Claude Code 也沒有使用多智能體協(xié)作機(jī)制。
張森森表示,“ 單智能體或雙智能體已經(jīng)能覆蓋 80% 的企業(yè)業(yè)務(wù)場景,此外,限于雙智能體也是出于成本考量。”
“ 具體來說,多智能體會(huì)顯著增加復(fù)雜度,容錯(cuò)設(shè)計(jì)難度提升,開發(fā)、維護(hù)、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時(shí)也難以抵消延遲,并會(huì)使得系統(tǒng)更加不穩(wěn)定。用戶體驗(yàn)最終取決于響應(yīng)速度,穩(wěn)定性方面,智能體越多越容易跑偏,可能出現(xiàn)循環(huán)對話、信息丟失等問題,還需要額外監(jiān)督和約束,復(fù)雜度會(huì)越來越高。”
“ 多智能體的案例也有,比如一些游戲公司在做 AI 團(tuán)隊(duì)游戲,在沙盒環(huán)境里嘗試多智能體交互。但對大部分企業(yè)而言,并不需要這種復(fù)雜度。”
王文廣補(bǔ)充道,“雖然在一些對協(xié)調(diào)和優(yōu)化要求極高的特定領(lǐng)域,已經(jīng)出現(xiàn)了更復(fù)雜的、已實(shí)際落地的多智能體系統(tǒng)案例,但絕大多數(shù)情況下, 應(yīng)該優(yōu)先解決簡單的問題。”
![]()
基礎(chǔ)模型能力方面,當(dāng)前非常核心的一個(gè)限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達(dá)到數(shù)十萬、上百萬 token,但Reddit 社區(qū)反饋其中水分很大,有時(shí)幾萬 token 輸入下,模型準(zhǔn)確率就大幅下降。
張森森表示,“ 實(shí)際體驗(yàn)來看,大部分廠商宣稱的上下文長度確實(shí)水分很大,別說兩三千行代碼,甚至一千多行時(shí)就開始丟失信息了。”
“上下文長度代表了基礎(chǔ)模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度。”
“ 在企業(yè)內(nèi)部優(yōu)化這個(gè)問題不僅很難,而且也不是靠企業(yè)自己能完全解決的。可選的方案有:代碼檢索以及更加智能的代碼檢索;動(dòng)態(tài)上下文管理,只加載與本次修改相關(guān)的依賴文件。但這些都治標(biāo)不治本。”
“ 對資深程序員來說影響不大,他們能很快發(fā)現(xiàn)邏輯缺口。”
“ 但對初學(xué)者來說,一旦項(xiàng)目規(guī)模大,IDE 頻繁加載就會(huì)崩潰。項(xiàng)目規(guī)模一大,就會(huì)涉及很多模塊和依賴,甚至是跨模態(tài)的復(fù)雜系統(tǒng)。模型不得不頻繁丟失上下文、重新加載信息,導(dǎo)致迭代過程完全斷裂,忘記之前的決策,甚至可能出現(xiàn)重復(fù)造輪子的情況。”
郭煒補(bǔ)充道,“ 當(dāng)前的限制不僅來自模型本身,還與底層芯片架構(gòu)有關(guān),包括顯存、外部存儲(chǔ)等都需要進(jìn)一步提升。”
王顯認(rèn)為,在硬件基礎(chǔ)設(shè)施的限制下,上下文長度瓶頸對于國內(nèi)而言將是更嚴(yán)峻的問題。
“ 國外芯片比如英偉達(dá) H100、A100 這樣的高端 GPU,能夠更高效地進(jìn)行分片計(jì)算,處理幾十萬、上百萬 token 上下文。同時(shí)它們也有軟件層面的優(yōu)化,比如 FlashAttention 工具、針對張量計(jì)算的優(yōu)化配置等,這些都是通過軟硬件結(jié)合來提升性能的。”
“ 相比之下,國內(nèi)主要通過算法優(yōu)化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團(tuán)隊(duì)也在發(fā)布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實(shí)都是一些面向低成本的方案。”
“ 一些國內(nèi)廠商號稱自己的高端 GPU 在浮點(diǎn)性能、顯存、寬帶等各方面和 H100 很相近,但其實(shí)還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應(yīng)對百萬級 token 推理。”
王文廣表示,“ 實(shí)際上就是 AI 芯片的存儲(chǔ)容量和帶寬限制了推理的極限,不管是國內(nèi)外都是這樣的。”
“ HBM 是通用 GPGPU 最好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。
“ 國內(nèi)有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀(jì)、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達(dá)用的 HBM 還高一個(gè)量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會(huì)對 Agent 有極大的促進(jìn)。”
![]()
除了上下文長度之外,更大的限制,自然來自基礎(chǔ)模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發(fā)布后。
客觀來看,GPT-5 的更新點(diǎn)是在產(chǎn)品層面,把幻覺降得特別低,這在消費(fèi)級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業(yè)用戶而言,有時(shí)甚至比 Claude 4 還好用一些,因?yàn)?GPT-5 在 Agentic Coding 中傾向 “ 精準(zhǔn)定位問題 ” 和 “ 最小侵入修改 ”,而 Claude 4 自主性更強(qiáng),寫的代碼更復(fù)雜,需要特別提醒才會(huì)選用最簡方案。
那么,從這個(gè)角度看,一直以消費(fèi)級用戶為主體的 OpenAI 未來是否想更多向 B 端推進(jìn)?
張森森表示,“ 如果是,那也是不得已而為之。現(xiàn)在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經(jīng)失效,單模型上很難再高效提升。其實(shí) GPT-5 的發(fā)布本身就有點(diǎn) ‘ 難產(chǎn) ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎(chǔ)模型能否進(jìn)一步進(jìn)化,還需要觀察。”
“ 這也是為什么大家都在強(qiáng)化 Agent 能力。相比基礎(chǔ)模型,Agent 的可解釋性相對更好一些,能更好結(jié)合具體業(yè)務(wù)場景去提升實(shí)際能力。但基礎(chǔ)模型往往也決定了 Agent 的上限。”
“ 后面大模型的走向可能更多會(huì)朝垂直方向發(fā)展,參數(shù)量未必再無限增大,而是聚焦在更細(xì)分的場景。”
大模型廠商經(jīng)常在營銷中刻意忽視模型當(dāng)前的智能上限,而過分強(qiáng)調(diào)可以放心地依賴大模型全權(quán)執(zhí)行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經(jīng)驗(yàn),他們內(nèi)部用 Claude Code 寫代碼的時(shí)候,有一個(gè)原則就是 “ 不行就重來 ”。
王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時(shí)間等無關(guān),跟解決問題的復(fù)雜程度有關(guān)。簡單來說,在原型探索階段或者簡單的應(yīng)用中,是一種有效的捷徑,但在嚴(yán)肅的、可維護(hù)的較為復(fù)雜的生產(chǎn)環(huán)境中,這是一種不可持續(xù)且極具破壞性的工作模式。”
對于基礎(chǔ)模型本身,王文廣則認(rèn)為還會(huì)繼續(xù)進(jìn)步,“ 整個(gè) Agent 生態(tài)系統(tǒng),也都在等待基礎(chǔ)模型的下一次重大突破。一旦新的、更強(qiáng)大的基礎(chǔ)模型出現(xiàn),它將立刻抬高整個(gè) Agent 生態(tài)系統(tǒng)的能力天花板,催生出新的應(yīng)用。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.