當(dāng)你在《我的世界》中辛苦搭建建筑,卻被一個(gè)智能體輕松超越;當(dāng)你還在《神廟逃亡》中為避開(kāi)障礙手忙腳亂,某個(gè)AI已經(jīng)實(shí)現(xiàn)無(wú)限連跳;當(dāng)一款全新的3D網(wǎng)頁(yè)游戲剛上線,無(wú)需任何適配,就有智能體直接零樣本上手——你或許會(huì)疑惑,游戲AI已經(jīng)進(jìn)化到這種程度了?答案是肯定的。字節(jié)跳動(dòng)Seed團(tuán)隊(duì)打造的通用型游戲智能體Game-TARS,打破了傳統(tǒng)游戲AI的局限,以“人類自然交互”為核心,用鍵盤(pán)和鼠標(biāo)真正“玩”轉(zhuǎn)各類游戲,甚至在多個(gè)任務(wù)中超越了GPT-5、Gemini-2.5-Pro等頂尖大模型。它的出現(xiàn),不僅重新定義了游戲智能體的發(fā)展方向,更讓通用人工智能在交互層面邁出了關(guān)鍵一步。
![]()
![]()
![]()
顛覆傳統(tǒng):從“調(diào)用函數(shù)”到“親手操作”的革命
傳統(tǒng)游戲智能體的“短板”早已顯而易見(jiàn):它們更像“規(guī)則執(zhí)行者”,而非“游戲玩家”。為了適配不同游戲,開(kāi)發(fā)者需要為AI定制專屬動(dòng)作集——在代碼層面,它們可以直接調(diào)用“搜索”“拾取”等函數(shù),跳過(guò)實(shí)際操作步驟;在圖形界面層面,也只能執(zhí)行“雙擊”“熱鍵觸發(fā)”等封裝好的固定動(dòng)作。這種“開(kāi)掛式”的操作邏輯雖然高效,卻極度缺乏通用性。一旦換個(gè)操作系統(tǒng)、換款游戲,甚至只是調(diào)整了按鍵設(shè)置,這些AI就會(huì)瞬間“失靈”,淪為只能在特定環(huán)境中工作的“專用工具”。
![]()
Game-TARS的核心創(chuàng)新,就是徹底拋棄了這種定制化思路,讓AI像人一樣通過(guò)最底層的鍵盤(pán)和鼠標(biāo)動(dòng)作與游戲交互。它的動(dòng)作指令集只有三類:鼠標(biāo)相對(duì)移動(dòng)(mouseMove)、鼠標(biāo)點(diǎn)擊(mouseClick)和鍵盤(pán)按鍵(keyPress),涵蓋了人類操作電腦的所有基礎(chǔ)動(dòng)作——從《星露谷》中精準(zhǔn)點(diǎn)擊作物澆水,到FPS游戲中快速轉(zhuǎn)身瞄準(zhǔn),再到《神廟逃亡》里的左右滑動(dòng)與跳躍,全靠這些基礎(chǔ)動(dòng)作組合完成。
這種設(shè)計(jì)實(shí)現(xiàn)了關(guān)鍵的“人類自然交互”(Human-NativeInteraction):AI的操作方式與具體游戲、操作系統(tǒng)完全解耦,就像一個(gè)熟悉鍵鼠的玩家,無(wú)論面對(duì)什么新環(huán)境,都能憑借基礎(chǔ)操作快速適應(yīng)。正是這種與人類物理交互方式的直接對(duì)齊,讓Game-TARS擺脫了“專屬工具”的定位,成為真正的“通用玩家”。
![]()
硬核技術(shù):5000億數(shù)據(jù)+創(chuàng)新算法,撐起跨域泛化能力
Game-TARS的通用性并非憑空而來(lái),背后是字節(jié)Seed團(tuán)隊(duì)在數(shù)據(jù)、模型和算法上的三重發(fā)力。作為一款通用智能體,它的訓(xùn)練基礎(chǔ)是超5000億標(biāo)注量級(jí)的多模態(tài)數(shù)據(jù),涵蓋了操作系統(tǒng)、網(wǎng)頁(yè)和各類模擬環(huán)境,相當(dāng)于讓AI“浸泡”在海量的交互場(chǎng)景中學(xué)習(xí)。但海量數(shù)據(jù)只是基礎(chǔ),要實(shí)現(xiàn)高效學(xué)習(xí)和跨域泛化,還需要?jiǎng)?chuàng)新算法的支撐。
稀疏推理:像人一樣“關(guān)鍵時(shí)刻深思考”
人類玩游戲時(shí),不會(huì)每一個(gè)動(dòng)作都反復(fù)糾結(jié),而是會(huì)在關(guān)鍵節(jié)點(diǎn)集中注意力思考——比如FPS游戲中發(fā)現(xiàn)敵人時(shí),會(huì)快速判斷射擊角度和時(shí)機(jī);《我的世界》中遇到危險(xiǎn)時(shí),會(huì)立刻規(guī)劃逃跑路線。Game-TARS借鑒了這種認(rèn)知模式,提出了“稀疏推理”(Sparse-Thinking)機(jī)制:AI只在關(guān)鍵決策點(diǎn)交錯(cuò)進(jìn)行推理和行動(dòng),而非全程高頻思考。
為了實(shí)現(xiàn)這一機(jī)制,團(tuán)隊(duì)采用了“離線思維鏈+在線邊做邊說(shuō)”的訓(xùn)練方式:標(biāo)注者在執(zhí)行游戲任務(wù)時(shí),通過(guò)音頻實(shí)時(shí)表達(dá)思考過(guò)程,系統(tǒng)同步錄制屏幕幀、鍵鼠操作和音頻,再通過(guò)語(yǔ)音轉(zhuǎn)文字和大模型優(yōu)化,生成原生的推理-動(dòng)作序列。同時(shí),以鼠標(biāo)光標(biāo)為視覺(jué)錨點(diǎn),精準(zhǔn)對(duì)齊每個(gè)動(dòng)作與執(zhí)行幀,確保推理和動(dòng)作的因果一致性。這種訓(xùn)練讓AI學(xué)會(huì)了“該省則省、該精則精”,既提高了決策效率,又讓動(dòng)作更符合人類邏輯。
衰減持續(xù)損失:打破“行為慣性”困局
傳統(tǒng)AI訓(xùn)練中,容易出現(xiàn)“行為慣性”問(wèn)題——比如在《神廟逃亡》中一直向左滑動(dòng),或者在開(kāi)放世界游戲中反復(fù)繞圈,難以主動(dòng)嘗試新動(dòng)作。為了解決這一問(wèn)題,Game-TARS引入了“衰減持續(xù)損失”(decayingcontinualloss)算法:對(duì)連續(xù)重復(fù)的動(dòng)作按指數(shù)降低權(quán)重,讓模型更關(guān)注高熵的動(dòng)作轉(zhuǎn)變。
這一設(shè)計(jì)模擬了人類的探索本能:就像玩家不會(huì)一直重復(fù)無(wú)效動(dòng)作,AI也會(huì)主動(dòng)嘗試新的操作組合,從而學(xué)習(xí)到更穩(wěn)健、泛化能力更強(qiáng)的策略。搭配統(tǒng)一的鍵鼠動(dòng)作空間,這種算法讓Game-TARS在面對(duì)未見(jiàn)過(guò)的3D網(wǎng)頁(yè)游戲時(shí),能快速探索有效操作,實(shí)現(xiàn)零樣本遷移。
![]()
兩階段訓(xùn)練:從“廣泛學(xué)習(xí)”到“精準(zhǔn)提升”
Game-TARS的訓(xùn)練分為持續(xù)預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。預(yù)訓(xùn)練階段在2萬(wàn)小時(shí)的游戲數(shù)據(jù)上完成,讓AI掌握基礎(chǔ)的交互能力和稀疏推理邏輯;后訓(xùn)練階段則重點(diǎn)提升三大核心能力:指令遵循(即使按鍵綁定被隨機(jī)替換,也能通過(guò)提示理解動(dòng)作語(yǔ)義)、稀疏思維強(qiáng)化(在關(guān)鍵步驟深化推理)和長(zhǎng)期記憶(通過(guò)雙層記憶機(jī)制保存關(guān)鍵信息)。
更重要的是,后訓(xùn)練還引入了代碼生成、GUI自動(dòng)化等跨領(lǐng)域數(shù)據(jù),讓Game-TARS從“游戲玩家”升級(jí)為“多功能通用計(jì)算機(jī)用戶”——這意味著它的能力不僅限于游戲,未來(lái)還能應(yīng)用于更多需要鍵鼠交互的場(chǎng)景。
![]()
實(shí)力驗(yàn)證:跨類型游戲碾壓頂尖模型,泛化能力拉滿
衡量一款通用游戲智能體的核心標(biāo)準(zhǔn),是跨類型、跨環(huán)境的表現(xiàn)。Game-TARS在多項(xiàng)測(cè)試中交出了亮眼答卷:在《我的世界》中,它能與普通玩家同臺(tái)競(jìng)技,完成建筑搭建、資源采集等復(fù)雜任務(wù),表現(xiàn)比此前最先進(jìn)的專家模型提升約2倍;在《神廟逃亡》《星露谷》等不同類型的游戲中,無(wú)需定制適配,就能快速上手并達(dá)到熟練玩家水平;在未見(jiàn)過(guò)的3D網(wǎng)頁(yè)游戲中,更是實(shí)現(xiàn)了零樣本遷移,直接通過(guò)鍵鼠操作完成游戲目標(biāo)。
![]()
在FPS、開(kāi)放世界、WEB游戲等主流任務(wù)中,Game-TARS的表現(xiàn)超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等頂尖大模型。這一結(jié)果證明:基于統(tǒng)一鍵鼠動(dòng)作空間的訓(xùn)練思路,不僅能實(shí)現(xiàn)通用性,還能在專項(xiàng)任務(wù)中達(dá)到甚至超越專用模型的水平。更重要的是,它在訓(xùn)練和推理過(guò)程中都展現(xiàn)出了優(yōu)秀的可擴(kuò)展性——隨著數(shù)據(jù)量的增加和場(chǎng)景的豐富,其性能還在持續(xù)提升。
![]()
![]()
未來(lái)可期:從游戲玩家到通用智能體的無(wú)限可能
Game-TARS的意義,遠(yuǎn)不止于“讓AI會(huì)玩更多游戲”。它所確立的“人類自然交互”范式,為通用人工智能的發(fā)展提供了重要參考:未來(lái)的AI無(wú)需依賴定制化接口,只需通過(guò)人類最熟悉的交互方式(鍵鼠、語(yǔ)音、手勢(shì)等),就能適配各類場(chǎng)景。
從應(yīng)用場(chǎng)景來(lái)看,Game-TARS已經(jīng)展現(xiàn)出了多元潛力:除了游戲領(lǐng)域,它還能應(yīng)用于軟件自動(dòng)化測(cè)試(模擬用戶操作檢測(cè)bug)、遠(yuǎn)程辦公輔助(自動(dòng)完成重復(fù)鍵鼠操作)、無(wú)障礙輔助(為特殊人群提供智能操作支持)等多個(gè)領(lǐng)域。而其核心技術(shù)——稀疏推理、多模態(tài)數(shù)據(jù)融合、跨域泛化能力,也將為更多通用智能體的研發(fā)提供借鑒。
值得一提的是,這款硬核智能體的第一作者是北京大學(xué)人工智能研究院的博士生王子豪,他在字節(jié)跳動(dòng)Seed團(tuán)隊(duì)擔(dān)任研究實(shí)習(xí)生期間,主導(dǎo)了核心技術(shù)的研發(fā)。這一成果既是產(chǎn)學(xué)研結(jié)合的典范,也展現(xiàn)了年輕研究者在通用人工智能領(lǐng)域的創(chuàng)新實(shí)力。
![]()
隨著技術(shù)的持續(xù)迭代,未來(lái)的Game-TARS或許能像人類玩家一樣,在游戲中展現(xiàn)出創(chuàng)造力和策略性——比如在《我的世界》中搭建出獨(dú)一無(wú)二的建筑,在開(kāi)放世界游戲中探索未知的隱藏劇情。而更長(zhǎng)遠(yuǎn)來(lái)看,這種“像人一樣交互”的通用智能體,終將突破游戲的邊界,成為人類在數(shù)字世界中的得力助手,推動(dòng)通用人工智能走向更貼近生活的新階段。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.