“讓人類能夠逐漸飛向太空并殖民太空一直是我的夢想。未來的人類,能否給 AI 任何一個目標,AI 就能設計并制造出滿足這個功能的機器?例如火箭、飛船、火星車等?”近日,西湖大學特聘研究員吳泰霖表示。為了更加接近這個目標,他和團隊提出一款名為 BuildArena 的基準測試,能讓大模型智能體直接根據(jù)類似于“造一個機器使得其飛得越高越好”目標,在物理仿真環(huán)境中從零開始設計、搭建并運行火箭、車輛與橋梁等機械結(jié)構(gòu)。
吳泰霖告訴 DeepTech,在火箭任務中,少部分模型能夠單體建造或分步組裝出推重比大于 1 的、構(gòu)造對稱的、可垂直升空的多引擎火箭;

圖 | 火箭模型(建造過程:Grok 4)(來源:https://github.com)
在交通任務中,面對“移動一個貨物”這樣的模糊指令,模型能自主構(gòu)建出符合運輸貨物尺寸的具備差速轉(zhuǎn)向的多輪車輛;

圖 | 車輛模型(建造過程:Kimi-K2)(來源:https://github.co)
在橋梁任務中,模型能夠建造出滿足跨度要求的橋梁結(jié)構(gòu),并展現(xiàn)出了桁架結(jié)構(gòu)等現(xiàn)實中存在的力學結(jié)構(gòu)。

圖 | 橋梁模型(建造過程:Grok 4)(來源:https://github.com)
據(jù)介紹,BuildArena 的初衷旨在推動 AI 智能體技術(shù)在工程建設領域的發(fā)展,讓 AI 開始在物理世界進行建造,而不僅僅是對話。基于 BuildArena 該團隊首次實現(xiàn)了“從自然語言、到設計方案、到工程圖紙、到三維結(jié)構(gòu)”的完整閉環(huán),并在實時仿真環(huán)境中完成了驗證,即已能獨立建造出可以運行的車輛、火箭和橋梁。據(jù)他們所知,這是第一個讓大模型能夠通過自然語言指令來執(zhí)行三維結(jié)構(gòu)建造、并能在物理約束環(huán)境中評估其性能的基準測試。該團隊在一篇博客中寫道,BuildArena 是第一個為語言驅(qū)動的工程建設所設計的物理一致的交互式基準,也是第一個在統(tǒng)一框架之內(nèi)可以全面解決空間推理、三維構(gòu)建、實現(xiàn)以構(gòu)建為目標的規(guī)劃、實現(xiàn)物理模擬和交互環(huán)境的基準測試。
![]()
(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)
據(jù)介紹,BuildArena 累計包含四個核心組件。
第一個核心組件是開源的三維空間幾何計算庫,這款三維空間幾何計算庫能夠通過自然語言結(jié)構(gòu)與構(gòu)建空間進行交互,確保基于語言的操作與物理結(jié)果之間的一致性。對于 BuildArena 來說,建造——在本質(zhì)上是一個迭代的過程:既需要逐步組裝結(jié)構(gòu),還需要讓每個組件與現(xiàn)有組件連接,更需要持續(xù)地驗證物理可行性。
第二個核心組件是基準工作流程,它受啟發(fā)于人類工程學實踐,由“計劃器”“起草人”“審閱者”“建造者”“指導”這五個專門的實體協(xié)同工作。基準工作流程可被分為三個階段:規(guī)劃階段、草案評審循環(huán)階段、構(gòu)建指導循環(huán)階段,最終能夠生成與仿真兼容的構(gòu)建結(jié)果。
第三個核心組件是基于模擬的評估,所構(gòu)建的結(jié)果會在 Besiege 物理模擬器中采用特定任務協(xié)議進行評估。需要說明的是,Besiege 是一款流行的建造沙盒游戲,具有逼真的物理模擬能力,并已被多次證明符合人類的物理直覺。研究中,本次團隊對于每個任務對都會進行 64 次采樣以便確保可靠性,所涉及的評估指標涵蓋性能和成本等。
第四個核心組件是任務套件,它分為基礎版和可定制版。在相關論文之中,研究人員列舉了幾個有代表性的工程任務類別,每個工程任務類別都包含簡單、中等、困難等三個等級。
實驗中,該團隊希望回答以下兩個問題:首先,BuildArena 能否作為測試大模型建造能力的有效基準?其次,現(xiàn)有主流模型在 BuildArena 框架內(nèi)的表現(xiàn)如何?為此,在 BuildArena 上該團隊評估了八個模型,它們分別是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6,評估涵蓋了三個任務類別和三個難度等級,每個任務類別在三個難度級別之下的成功率取不同模型表現(xiàn)的平均值。
吳泰霖回憶稱:在交通任務中,在一些建造結(jié)果之中模型加入了水炮,試圖使用其推力驅(qū)動載具或?qū)崿F(xiàn)轉(zhuǎn)向;有的模型在載具上安裝了兩組移動方向正交的輪子,以期實現(xiàn)斜向移動。在橋梁任務中,部分模型舍棄了橋梁構(gòu)造而是使用單個柱狀結(jié)構(gòu)實現(xiàn)支撐;或在橋梁和地面搭接的邊緣添加車輪,并明確指出“利用車輪的自動剎車阻尼來穩(wěn)定橋梁和地面的連接”。而在火箭任務中,出現(xiàn)了模型將四臺發(fā)動機豎向十字形放置成飛船形狀的嘗試。“雖然發(fā)動機本身由于建造錯誤火炬沒有加熱到水炮,不過這些初步證明大模型具備一定的創(chuàng)意能力,同時多數(shù)建造結(jié)果都比較符合人類常規(guī)預期。”他表示。
![]()
(來源:https://github.com/AI4Science-WestlakeU/BuildArena/)
通過研究,他們得到以下發(fā)現(xiàn):
首先,大模型完全可以進行語言驅(qū)動的三維構(gòu)建,上述 8 款大模型均能完成多個難度級別的構(gòu)建任務,這證明大模型可以將自然語言轉(zhuǎn)化為物理上可行的三維結(jié)構(gòu)。
其次,不同模型的性能差異較大。Grok-4 的整體性能最強,在精度和魯棒性方面表現(xiàn)最為出色。其他多數(shù)模型都能很好地處理量級和模糊性,但是在精度和組合性上表現(xiàn)不佳。
再次,大模型展現(xiàn)出創(chuàng)造性地解決問題的能力。當明確性約束被放寬的時候,大模型能夠提出非常規(guī)的解決方案,例如提出了打造用于運輸任務的推進動力載體的方案,以及提出了利用自動制動方法進行穩(wěn)定的輪式橋梁結(jié)構(gòu)。
另外,可以捕獲現(xiàn)實世界的工程知識。大模型構(gòu)建的結(jié)構(gòu)反映了現(xiàn)實世界的實踐,例如橋梁中的鋼桁架和車輛中的差速轉(zhuǎn)向等,這表明從文本中學習的結(jié)構(gòu)概念帶有隱含的空間信息。
此外,多數(shù)大模型仍然存在重大限制。在分層組裝任務和高精度任務中,多數(shù)大模型的成功率出現(xiàn)急劇下降。除了 Grok-4 之外,大多數(shù)模型在最高難度級別下完全失敗,這表明多數(shù)大模型在組合構(gòu)建和精確空間對齊方面依然存在一定挑戰(zhàn)。
最后,更多 tokens 不等于更好的性能。本次研究的成本分析表明,大規(guī)模推理并不能保證高性能。最佳構(gòu)建結(jié)果一般只消耗適量的 tokens,而多次失敗的嘗試則會導致大量 tokens 的使用。當超過能力閾值之后,額外的推理成本并不會轉(zhuǎn)化為更好的結(jié)果。
![]()
圖 | 吳泰霖(來源:吳泰霖)
眾所周知,現(xiàn)實中工程設計需考慮材料強度、空氣動力學等復雜物理約束。那么,目前的仿真環(huán)境是否足以覆蓋這些現(xiàn)實復雜性?對此,吳泰霖告訴 DeepTech:“我們所提出的是一個 pipeline,而并不追求工業(yè)級仿真精度,仿真部分主要用于驗證結(jié)構(gòu)的性能表現(xiàn)。”
他繼續(xù)說道,在建造環(huán)節(jié),他們引入了嚴格的 Physics-Aligned 約束機制,其遵循一個最基礎但關鍵的物理原則:任何部件之間不允許重疊或空間沖突。每一次連接操作都會經(jīng)過幾何與碰撞檢測,若發(fā)生沖突則會被系統(tǒng)拒絕,并即時返回反饋。這一約束使語言模型的構(gòu)造行為始終保持“物理可行性”,并讓其在連續(xù)反饋中學習空間推理。因此,BuildArena 這種 Physics-Aligned 建造流程可以被直接遷移到更高精度的仿真或現(xiàn)實驗證環(huán)境中。仿真精度影響的是性能評估,但建造邏輯本身是通用且嚴格受物理約束的。當然,現(xiàn)實世界的物理約束會更加復雜,這也是 BuildArena 未來的提升方向之一。
實驗結(jié)果顯示,目前現(xiàn)有的大模型在工程能力等六個重要維度還有很大的提升空間。目前大語言模型關于世界的知識如此多,卻不能充分了解現(xiàn)實世界是如何建造的。總的來說,他們?yōu)椤罢Z言”與“物理”架設了橋梁,第一次讓大模型走向“AI 工程師”角色的探索。BuildArena 的首要意義就是填補目前尚無能為工程建設 LLM agents 發(fā)展進步提供落腳點的空白,給社區(qū)提供了一個能夠檢驗 AI 工程師并且提供 insight 的試驗田。未來,他們希望可以更進一步完善 BuildArena 的通用性和易用性,爭取做到讓每一個人只需改變最開始的目標,就能設計并建造出能夠滿足相關功能的機器。
另據(jù)悉,吳泰霖 2012 年于北京大學獲得學士學位,2019 年獲得美國麻省理工學院博士學位,后在美國斯坦福大學從事博士后研究。2023 年,吳泰霖正式加入西湖大學并創(chuàng)建西湖大學人工智能與科學仿真發(fā)現(xiàn)實驗室。其研究方向為 AI for Science,具體研究生成模型及與能源和生命科學中仿真和控制的深度結(jié)合。
參考資料:
項目主頁 build-arena.github.io
代碼倉庫 github.com/AI4Science-WestlakeU/BuildArena
文章鏈接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf
人物主頁 https://www.westlake.edu.cn/faculty/tailin-wu.html
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.