西湖大學解鎖AI新角色：基建工程師，火箭橋梁都能造！

2025-10-20 22:17:20　來源: DeepTech深科技

北京舉報

分享至

“讓人類能夠逐漸飛向太空并殖民太空一直是我的夢想。未來的人類，能否給 AI 任何一個目標，AI 就能設計并制造出滿足這個功能的機器？例如火箭、飛船、火星車等？”近日，西湖大學特聘研究員吳泰霖表示。為了更加接近這個目標，他和團隊提出一款名為 BuildArena 的基準測試，能讓大模型智能體直接根據(jù)類似于“造一個機器使得其飛得越高越好”目標，在物理仿真環(huán)境中從零開始設計、搭建并運行火箭、車輛與橋梁等機械結(jié)構(gòu)。

吳泰霖告訴 DeepTech，在火箭任務中，少部分模型能夠單體建造或分步組裝出推重比大于 1 的、構(gòu)造對稱的、可垂直升空的多引擎火箭；

圖 | 火箭模型（建造過程：Grok 4）（來源：https://github.com）

在交通任務中，面對“移動一個貨物”這樣的模糊指令，模型能自主構(gòu)建出符合運輸貨物尺寸的具備差速轉(zhuǎn)向的多輪車輛；

圖 | 車輛模型（建造過程：Kimi-K2）（來源：https://github.co）

在橋梁任務中，模型能夠建造出滿足跨度要求的橋梁結(jié)構(gòu)，并展現(xiàn)出了桁架結(jié)構(gòu)等現(xiàn)實中存在的力學結(jié)構(gòu)。

圖 | 橋梁模型（建造過程：Grok 4）（來源：https://github.com）

據(jù)介紹，BuildArena 的初衷旨在推動 AI 智能體技術(shù)在工程建設領域的發(fā)展，讓 AI 開始在物理世界進行建造，而不僅僅是對話。基于 BuildArena 該團隊首次實現(xiàn)了“從自然語言、到設計方案、到工程圖紙、到三維結(jié)構(gòu)”的完整閉環(huán)，并在實時仿真環(huán)境中完成了驗證，即已能獨立建造出可以運行的車輛、火箭和橋梁。據(jù)他們所知，這是第一個讓大模型能夠通過自然語言指令來執(zhí)行三維結(jié)構(gòu)建造、并能在物理約束環(huán)境中評估其性能的基準測試。該團隊在一篇博客中寫道，BuildArena 是第一個為語言驅(qū)動的工程建設所設計的物理一致的交互式基準，也是第一個在統(tǒng)一框架之內(nèi)可以全面解決空間推理、三維構(gòu)建、實現(xiàn)以構(gòu)建為目標的規(guī)劃、實現(xiàn)物理模擬和交互環(huán)境的基準測試。

（來源：https://github.com/AI4Science-WestlakeU/BuildArena/）

據(jù)介紹，BuildArena 累計包含四個核心組件。

第一個核心組件是開源的三維空間幾何計算庫，這款三維空間幾何計算庫能夠通過自然語言結(jié)構(gòu)與構(gòu)建空間進行交互，確保基于語言的操作與物理結(jié)果之間的一致性。對于 BuildArena 來說，建造——在本質(zhì)上是一個迭代的過程：既需要逐步組裝結(jié)構(gòu)，還需要讓每個組件與現(xiàn)有組件連接，更需要持續(xù)地驗證物理可行性。

第二個核心組件是基準工作流程，它受啟發(fā)于人類工程學實踐，由“計劃器”“起草人”“審閱者”“建造者”“指導”這五個專門的實體協(xié)同工作。基準工作流程可被分為三個階段：規(guī)劃階段、草案評審循環(huán)階段、構(gòu)建指導循環(huán)階段，最終能夠生成與仿真兼容的構(gòu)建結(jié)果。

第三個核心組件是基于模擬的評估，所構(gòu)建的結(jié)果會在 Besiege 物理模擬器中采用特定任務協(xié)議進行評估。需要說明的是，Besiege 是一款流行的建造沙盒游戲，具有逼真的物理模擬能力，并已被多次證明符合人類的物理直覺。研究中，本次團隊對于每個任務對都會進行 64 次采樣以便確保可靠性，所涉及的評估指標涵蓋性能和成本等。

第四個核心組件是任務套件，它分為基礎版和可定制版。在相關論文之中，研究人員列舉了幾個有代表性的工程任務類別，每個工程任務類別都包含簡單、中等、困難等三個等級。

實驗中，該團隊希望回答以下兩個問題：首先，BuildArena 能否作為測試大模型建造能力的有效基準？其次，現(xiàn)有主流模型在 BuildArena 框架內(nèi)的表現(xiàn)如何？為此，在 BuildArena 上該團隊評估了八個模型，它們分別是 GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2 和 Seed-1.6，評估涵蓋了三個任務類別和三個難度等級，每個任務類別在三個難度級別之下的成功率取不同模型表現(xiàn)的平均值。

吳泰霖回憶稱：在交通任務中，在一些建造結(jié)果之中模型加入了水炮，試圖使用其推力驅(qū)動載具或?qū)崿F(xiàn)轉(zhuǎn)向；有的模型在載具上安裝了兩組移動方向正交的輪子，以期實現(xiàn)斜向移動。在橋梁任務中，部分模型舍棄了橋梁構(gòu)造而是使用單個柱狀結(jié)構(gòu)實現(xiàn)支撐；或在橋梁和地面搭接的邊緣添加車輪，并明確指出“利用車輪的自動剎車阻尼來穩(wěn)定橋梁和地面的連接”。而在火箭任務中，出現(xiàn)了模型將四臺發(fā)動機豎向十字形放置成飛船形狀的嘗試。“雖然發(fā)動機本身由于建造錯誤火炬沒有加熱到水炮，不過這些初步證明大模型具備一定的創(chuàng)意能力，同時多數(shù)建造結(jié)果都比較符合人類常規(guī)預期。”他表示。

（來源：https://github.com/AI4Science-WestlakeU/BuildArena/）

通過研究，他們得到以下發(fā)現(xiàn)：

首先，大模型完全可以進行語言驅(qū)動的三維構(gòu)建，上述 8 款大模型均能完成多個難度級別的構(gòu)建任務，這證明大模型可以將自然語言轉(zhuǎn)化為物理上可行的三維結(jié)構(gòu)。

其次，不同模型的性能差異較大。Grok-4 的整體性能最強，在精度和魯棒性方面表現(xiàn)最為出色。其他多數(shù)模型都能很好地處理量級和模糊性，但是在精度和組合性上表現(xiàn)不佳。

再次，大模型展現(xiàn)出創(chuàng)造性地解決問題的能力。當明確性約束被放寬的時候，大模型能夠提出非常規(guī)的解決方案，例如提出了打造用于運輸任務的推進動力載體的方案，以及提出了利用自動制動方法進行穩(wěn)定的輪式橋梁結(jié)構(gòu)。

另外，可以捕獲現(xiàn)實世界的工程知識。大模型構(gòu)建的結(jié)構(gòu)反映了現(xiàn)實世界的實踐，例如橋梁中的鋼桁架和車輛中的差速轉(zhuǎn)向等，這表明從文本中學習的結(jié)構(gòu)概念帶有隱含的空間信息。

此外，多數(shù)大模型仍然存在重大限制。在分層組裝任務和高精度任務中，多數(shù)大模型的成功率出現(xiàn)急劇下降。除了 Grok-4 之外，大多數(shù)模型在最高難度級別下完全失敗，這表明多數(shù)大模型在組合構(gòu)建和精確空間對齊方面依然存在一定挑戰(zhàn)。

最后，更多 tokens 不等于更好的性能。本次研究的成本分析表明，大規(guī)模推理并不能保證高性能。最佳構(gòu)建結(jié)果一般只消耗適量的 tokens，而多次失敗的嘗試則會導致大量 tokens 的使用。當超過能力閾值之后，額外的推理成本并不會轉(zhuǎn)化為更好的結(jié)果。

圖 | 吳泰霖（來源：吳泰霖）

眾所周知，現(xiàn)實中工程設計需考慮材料強度、空氣動力學等復雜物理約束。那么，目前的仿真環(huán)境是否足以覆蓋這些現(xiàn)實復雜性？對此，吳泰霖告訴 DeepTech：“我們所提出的是一個 pipeline，而并不追求工業(yè)級仿真精度，仿真部分主要用于驗證結(jié)構(gòu)的性能表現(xiàn)。”

他繼續(xù)說道，在建造環(huán)節(jié)，他們引入了嚴格的 Physics-Aligned 約束機制，其遵循一個最基礎但關鍵的物理原則：任何部件之間不允許重疊或空間沖突。每一次連接操作都會經(jīng)過幾何與碰撞檢測，若發(fā)生沖突則會被系統(tǒng)拒絕，并即時返回反饋。這一約束使語言模型的構(gòu)造行為始終保持“物理可行性”，并讓其在連續(xù)反饋中學習空間推理。因此，BuildArena 這種 Physics-Aligned 建造流程可以被直接遷移到更高精度的仿真或現(xiàn)實驗證環(huán)境中。仿真精度影響的是性能評估，但建造邏輯本身是通用且嚴格受物理約束的。當然，現(xiàn)實世界的物理約束會更加復雜，這也是 BuildArena 未來的提升方向之一。

實驗結(jié)果顯示，目前現(xiàn)有的大模型在工程能力等六個重要維度還有很大的提升空間。目前大語言模型關于世界的知識如此多，卻不能充分了解現(xiàn)實世界是如何建造的。總的來說，他們?yōu)椤罢Z言”與“物理”架設了橋梁，第一次讓大模型走向“AI 工程師”角色的探索。BuildArena 的首要意義就是填補目前尚無能為工程建設 LLM agents 發(fā)展進步提供落腳點的空白，給社區(qū)提供了一個能夠檢驗 AI 工程師并且提供 insight 的試驗田。未來，他們希望可以更進一步完善 BuildArena 的通用性和易用性，爭取做到讓每一個人只需改變最開始的目標，就能設計并建造出能夠滿足相關功能的機器。

另據(jù)悉，吳泰霖 2012 年于北京大學獲得學士學位，2019 年獲得美國麻省理工學院博士學位，后在美國斯坦福大學從事博士后研究。2023 年，吳泰霖正式加入西湖大學并創(chuàng)建西湖大學人工智能與科學仿真發(fā)現(xiàn)實驗室。其研究方向為 AI for Science，具體研究生成模型及與能源和生命科學中仿真和控制的深度結(jié)合。

參考資料：

項目主頁 build-arena.github.io

代碼倉庫 github.com/AI4Science-WestlakeU/BuildArena

文章鏈接 github.com/AI4Science-WestlakeU/BuildArena/blob/main/BuildArena.pdf

人物主頁 https://www.westlake.edu.cn/faculty/tailin-wu.html

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.