<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MCU:全球首個生成式開放世界基準(zhǔn),革新通用AI評測范式

      0
      分享至




      該工作由通用人工智能研究院 × 北京大學(xué)聯(lián)手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學(xué)人工智能研究院博士生林昊葦,通訊作者為北京大學(xué)助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

      開發(fā)能在開放世界中完成多樣任務(wù)的通用智能體,是AI領(lǐng)域的核心挑戰(zhàn)。開放世界強調(diào)環(huán)境的動態(tài)性及任務(wù)的非預(yù)設(shè)性,智能體必須具備真正的泛化能力才能穩(wěn)健應(yīng)對。然而,現(xiàn)有評測體系多受限于任務(wù)多樣化不足、任務(wù)數(shù)量有限以及環(huán)境單一等因素,難以準(zhǔn)確衡量智能體是否真正「理解」任務(wù),或僅是「記住」了特定解法。

      為此,我們構(gòu)建了Minecraft Universe(MCU)——一個面向通用智能體評測的生成式開放世界平臺。MCU 支持自動生成無限多樣的任務(wù)配置,覆蓋豐富生態(tài)系統(tǒng)、復(fù)雜任務(wù)目標(biāo)、天氣變化等多種環(huán)境變量,旨在全面評估智能體的真實能力與泛化水平。該平臺基于高效且功能全面的開發(fā)工具MineStudio構(gòu)建,支持靈活定制環(huán)境設(shè)定,大規(guī)模數(shù)據(jù)集處理,并內(nèi)置 VPTs、STEVE-1 等主流 Minecraft 智能體模型,顯著簡化評測流程,助力智能體的快速迭代與發(fā)展。



      • 論文地址:https://arxiv.org/pdf/2310.08367
      • 代碼開源:https://github.com/CraftJarvis/MCU
      • 項目主頁:https://craftjarvis.github.io/MCU
      • MineStudio:https://github.com/CraftJarvis/MineStudio

      開放世界AI,亟需理想的評測基準(zhǔn)!

      傳統(tǒng)測試基準(zhǔn)包含有標(biāo)準(zhǔn)答案的任務(wù)(如代碼、推理、問答),但開放世界任務(wù) Minecraft 有著完全不同的挑戰(zhàn):

      • 目標(biāo)開放多樣:任務(wù)沒有唯一解,策略可以千變?nèi)f化;
      • 環(huán)境狀態(tài)龐雜:狀態(tài)空間近乎無限,還原真實世界復(fù)雜度;
      • 長周期任務(wù)挑戰(zhàn):關(guān)鍵任務(wù)持續(xù)數(shù)小時,智能體需長期規(guī)劃。

      在這樣的環(huán)境中,我們需要的不只是一個評分系統(tǒng),而是一個維度豐富、結(jié)構(gòu)多元的綜合評測框架。

      MCU:為開放世界 AI 打造的「全方位試煉場」

      當(dāng)前已有不少 Minecraft 的測試基準(zhǔn),但它們普遍面臨「三大瓶頸」:

      • 任務(wù)單一:局限于如挖鉆石、制造材料等少數(shù)幾個場景的循環(huán)往復(fù)。
      • 脫離現(xiàn)實:部分建模任務(wù)甚至超出了普通人類玩家的能力范疇。
      • 依賴人工評測:效率低下,導(dǎo)致評測難以規(guī)模化推廣。



      與之前 minecraft 測試基準(zhǔn)對比示意圖。

      針對以上痛點,MCU 實現(xiàn)了以下三大核心突破:

      一:3,452 個原子任務(wù) × 無限組合生成,構(gòu)筑海量任務(wù)空間

      MCU 構(gòu)建了一個覆蓋真實玩家行為的超大任務(wù)庫:

      • 11 大類 × 41 子類任務(wù)類型:如挖礦、合成、戰(zhàn)斗、建造等;
      • 每個任務(wù)都是「原子級粒度」:可獨立測試控制、規(guī)劃、推理、創(chuàng)造等能力;
      • 支持 LLM 動態(tài)擴展任務(wù),比如:用鉆石劍擊敗僵尸、雨天徒手采集木材、

      在沙漠中建一座水上屋。

      任意組合這些原子任務(wù),即可生成無限的新任務(wù),每一個都對 AI 是全新挑戰(zhàn)!



      模擬多樣化真實世界挑戰(zhàn)。

      二. 任務(wù)全自動生成 × 多模態(tài)智能評測,革新評估效率

      GPT-4o 賦能,一句話生成復(fù)雜世界:

      • 自動生成完整的任務(wù)場景(包括天氣、生物群系、初始道具等)。
      • 智能驗證任務(wù)配置的可行性,有效避免如「用木鎬挖掘鉆石」這類邏輯錯誤型任務(wù)。

      VLM(視覺語言模型)驅(qū)動,徹底改變了傳統(tǒng)人工打分的低效模式:

      • 基于 VLM 實現(xiàn)對任務(wù)進度、控制策略、材料利用率、執(zhí)行效率、錯誤檢測及創(chuàng)造性六大維度的智能評分。
      • 模型自動生成詳盡的評估文本,評分準(zhǔn)確率高達91.5%
      • 評測效率相較人工提升8.1 倍,成本僅為人工評估的1/5!



      任務(wù)生成 x 多模態(tài)評測流程圖。

      三:高難度 × 高自由度的「試金石」任務(wù)設(shè)計,深度檢驗泛化能力

      MCU 支持每個任務(wù)的多種難度版本,如:

      • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物并擊殺羊」;
      • 「森林里造瀑布」VS「熔巖坑邊緣建造瀑布」。

      這不僅考驗 AI 是否能完成任務(wù),更深度檢驗其在復(fù)雜多變環(huán)境下的泛化與適應(yīng)能力。

      打破「模型表現(xiàn)良好」的幻象:現(xiàn)有 SOTA 模型能否駕馭 MCU ?

      我們將當(dāng)前領(lǐng)域頂尖的 Minecraft 智能體引入 MCU 進行實戰(zhàn)檢驗:GROOT:視頻模仿學(xué)習(xí)代表;STEVE-I:指令執(zhí)行型控制器;VPT(BC/RL):基于 YouTube 行為克隆訓(xùn)練而成的先驅(qū)。結(jié)果發(fā)現(xiàn),這些智能體在簡單任務(wù)上表現(xiàn)尚可,但在面對組合任務(wù)和陌生配置場景時,完成率急劇下降,且錯誤識別與創(chuàng)新嘗試是其短板。









      SOTA 模型在 MCU 上的測試結(jié)果。

      研究團隊引入了更細(xì)粒度的任務(wù)進度評分指標(biāo)(Task Progress),區(qū)別于傳統(tǒng) 0/1 式的「任務(wù)完成率」,它能動態(tài)刻畫智能體在執(zhí)行過程中的階段性表現(xiàn),哪怕任務(wù)失敗,也能反映其是否在朝正確方向推進。

      實驗發(fā)現(xiàn),當(dāng)前主流模型如 GROOT、STEVE-I、VPT-RL,在原子任務(wù)中尚有可圈可點的表現(xiàn),但一旦面對更具組合性和變化性的任務(wù),其成功率便會驟降。甚至對環(huán)境的微小改動也會導(dǎo)致決策混亂。比如「在房間內(nèi)睡覺」這個看似簡單的任務(wù),僅僅是將床從草地搬到屋內(nèi),就讓 GROOT 頻繁誤把箱子當(dāng)床點擊,甚至轉(zhuǎn)身離開現(xiàn)場——這揭示了現(xiàn)有模型在空間理解與泛化上的明顯短板。

      更令人警醒的是,智能體在建造、戰(zhàn)斗類任務(wù)中的「創(chuàng)造性得分」與「錯誤識別能力」幾乎全面落后。這說明它們尚未真正具備人類那種「發(fā)現(xiàn)問題、調(diào)整策略」的自主意識,而這正是通用智能邁向下一個階段的關(guān)鍵。

      MCU 的評測結(jié)果首次系統(tǒng)性地揭示了當(dāng)前開放世界智能體在「泛化、適應(yīng)與創(chuàng)造」這三大核心能力上存在的鴻溝,同時也為未來的研究指明了方向:如何讓 AI 不僅能高效完成任務(wù),更能深刻理解任務(wù)的本質(zhì),并創(chuàng)造性地解決復(fù)雜問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      金槍魚為了不被吃有多努力?160公里時速,一旦停下就會被淹死。

      金槍魚為了不被吃有多努力?160公里時速,一旦停下就會被淹死。

      百態(tài)人間
      2025-10-28 15:47:35
      新任命出爐,關(guān)鍵崗非楊永明是高學(xué)歷美女,鄭麗文用人策略漸清晰

      新任命出爐,關(guān)鍵崗非楊永明是高學(xué)歷美女,鄭麗文用人策略漸清晰

      探源歷史
      2025-11-06 15:33:19
      港股機器人概念股午后全線走強,藍(lán)思科技、三花智控漲近7%

      港股機器人概念股午后全線走強,藍(lán)思科技、三花智控漲近7%

      每日經(jīng)濟新聞
      2025-11-06 14:17:05
      金建希首次承認(rèn)收禮:“3包1鞋”,都是香奈兒品牌 律師:她痛苦地意識到犯錯

      金建希首次承認(rèn)收禮:“3包1鞋”,都是香奈兒品牌 律師:她痛苦地意識到犯錯

      紅星新聞
      2025-11-06 12:51:28
      中年夫妻的婚姻狀態(tài)都是啥樣?網(wǎng)友:我34,老公54,一個月八九次

      中年夫妻的婚姻狀態(tài)都是啥樣?網(wǎng)友:我34,老公54,一個月八九次

      解讀熱點事件
      2025-10-24 00:20:03
      定檔開播!今晚到8號將播5部王炸大劇,眾星云集,你想追哪部?

      定檔開播!今晚到8號將播5部王炸大劇,眾星云集,你想追哪部?

      失寵的小野豬
      2025-11-06 14:01:25
      《暗黑4》第11賽季將迎重大革新 暴雪決心變革舊系統(tǒng)

      《暗黑4》第11賽季將迎重大革新 暴雪決心變革舊系統(tǒng)

      游民星空
      2025-11-06 16:03:30
      沒人搶的大閘蟹!降價也賣不動,這屆消費者清醒了?

      沒人搶的大閘蟹!降價也賣不動,這屆消費者清醒了?

      鬼谷子思維
      2025-11-05 19:40:03
      央媒通報!又一間諜行為曝光,作案手法陰險,糧食安全受威脅

      央媒通報!又一間諜行為曝光,作案手法陰險,糧食安全受威脅

      霽寒飄雪
      2025-11-06 13:41:11
      “山西80后”李濤出任代縣長!

      “山西80后”李濤出任代縣長!

      創(chuàng)作者_IE2295
      2025-11-06 13:01:45
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風(fēng)專欄
      2025-10-23 11:23:56
      太離譜!男子高鐵上請求讓座被拒后怒罵“畜生”,12306回應(yīng)→

      太離譜!男子高鐵上請求讓座被拒后怒罵“畜生”,12306回應(yīng)→

      上觀新聞
      2025-11-05 20:52:04
      “存款搬家”效應(yīng)顯現(xiàn),10月銀行理財規(guī)模創(chuàng)歷史新高

      “存款搬家”效應(yīng)顯現(xiàn),10月銀行理財規(guī)模創(chuàng)歷史新高

      第一財經(jīng)資訊
      2025-11-06 09:19:35
      向毛岸英扔下汽油彈的南非飛行員,在51年時獲安慰獎,最后咋樣了

      向毛岸英扔下汽油彈的南非飛行員,在51年時獲安慰獎,最后咋樣了

      抽象派大師
      2025-11-04 08:50:03
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      失寵的小野豬
      2025-11-06 14:02:32
      女同事上班穿丁字褲被拍發(fā)網(wǎng)上爆火!這拍到的倒三角大家看是穿反了嗎?

      女同事上班穿丁字褲被拍發(fā)網(wǎng)上爆火!這拍到的倒三角大家看是穿反了嗎?

      經(jīng)典段子
      2025-11-05 22:36:41
      韓國人們都感到后怕,特種部隊指揮官作證:當(dāng)初尹錫悅想殺很多人

      韓國人們都感到后怕,特種部隊指揮官作證:當(dāng)初尹錫悅想殺很多人

      墨蘭史書
      2025-11-06 05:05:03
      外媒評《黑神話:悟空》發(fā)售一年后仍無敵手

      外媒評《黑神話:悟空》發(fā)售一年后仍無敵手

      3DM游戲
      2025-11-06 11:47:05
      耳光比賽后續(xù),網(wǎng)紅約架鴿武緣,大罵通背拳是騙子,要3秒KO對手

      耳光比賽后續(xù),網(wǎng)紅約架鴿武緣,大罵通背拳是騙子,要3秒KO對手

      娛樂洞察點點
      2025-11-06 11:02:57
      小菲帶一家子到成都吃鮮魚館!筱梅本人超漂亮,玥兒正面像大S!

      小菲帶一家子到成都吃鮮魚館!筱梅本人超漂亮,玥兒正面像大S!

      甜檸聊史
      2025-11-06 14:58:21
      2025-11-06 16:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11662文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發(fā)一鏡到底視頻

      頭條要聞

      醫(yī)院副院長被指出軌眼科主任 湖南衛(wèi)健委:兩人被停職

      頭條要聞

      醫(yī)院副院長被指出軌眼科主任 湖南衛(wèi)健委:兩人被停職

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經(jīng)要聞

      南銀法巴加速發(fā)展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

      態(tài)度原創(chuàng)

      健康
      親子
      旅游
      時尚
      藝術(shù)

      超聲探頭會加重受傷情況嗎?

      親子要聞

      amh值低怎么調(diào)理好?卵子質(zhì)量不好如何改善?

      旅游要聞

      通訊|大埃及博物館將成為埃及旅游業(yè)升級的“催化劑”

      中國色特別策劃 | 故宮技藝與古意新生

      藝術(shù)要聞

      預(yù)定年度十佳!49歲的舒淇,殺瘋了

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲国产中文字幕在线视频综合| 亚洲国产午夜精品福利| 亚洲午夜精品国产电影在线观看 | 2022最新国产在线不卡a| 五月天国产成人av免费观看| 中国xxx农村性视频| 亚洲熟妇熟女久久精品综合| 蕲春县| 日韩精品国产中文字幕| 亚洲成人高清av在线| 亚洲一区二区精品极品| 亚洲国产欧美在线观看片| 婷婷国产亚洲性色av网站| 黄色一级片一区二区三区| 亚洲AV无码东方伊甸园| 精品无码国产污污污免费| 中文字幕乱码无码人妻系列蜜桃 | 亚洲一区二区三区 无码| 中文字幕日韩一区二区不卡| 国产成人人综合亚洲欧美丁香花 | 一区二区亚洲人妻精品| 韩国无码AV片午夜福利| 亚洲欧美精品一中文字幕| av在线播放无码线| 国产亚洲精品第一综合麻豆| 九九热精品视频免费在线| 九九在线精品国产| 激情97综合亚洲色婷婷五| 老司机亚洲精品一区二区| 成人性生交片无码免费看| 爆乳日韩尤物无码一区| 欧美丰满熟妇hdxx| 激情视频乱一区二区三区| 精品一区二区三区不卡| 5D肉蒲团之性战奶水欧美| 性男女做视频观看网站| 奇米网777狠狠狠俺| 高中女无套中出17p| 大肉大捧一进一出好爽视频动漫| 亚洲精品一区二区三区综合| 樱花草视频www日本韩国|