![]()
機(jī)器之心報道
編輯:Panda
11 月 2 日,英偉達(dá)首次把 H100 GPU 送入了太空,參閱報道《英偉達(dá)發(fā)射了首個太空 AI 服務(wù)器,H100 已上天》。而剛剛谷歌宣布,他們也要讓 TPU 上天。
這個項目被命名為Project Suncatcher(捕光者計劃),這是一個「基于太空的可擴(kuò)展 AI 基礎(chǔ)設(shè)施系統(tǒng)設(shè)計」。谷歌 CEO Sundar Pichai 表示,此項目可以更好地利用太陽的能量來驅(qū)動 AI,畢竟太陽發(fā)出的能量比人類總電力生產(chǎn)量高出 100 萬億倍。
![]()
他說:「像任何登月計劃一樣,它將需要我們解決許多復(fù)雜的工程挑戰(zhàn)。早期研究表明,我們的 Trillium 代 TPU(我們的張量處理單元,專為 AI 設(shè)計)能挺過粒子加速器測試(模擬低地球軌道水平的輻射)。然而,重大挑戰(zhàn)仍然存在,如熱管理和在軌系統(tǒng)可靠性。」
他也宣布了首次發(fā)射的時間:2027 年初。屆時,谷歌將與 Plant 公司一起發(fā)射兩顆原型衛(wèi)星。
此舉自然引起了廣泛關(guān)注和討論:
![]()
![]()
也有人讓谷歌的 Veo 做了些夸張的想象:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/VmzJkIKT-X_3VMLnMg1CLg
Project Suncatcher
基于太空的可擴(kuò)展 AI 基礎(chǔ)設(shè)施系統(tǒng)設(shè)計
Project Suncatcher 是一項宏偉的探索,旨在探索:為太陽能衛(wèi)星星座(satellite constellation,指一組人造衛(wèi)星共同運(yùn)作而形成的系統(tǒng))配備 TPU 和自由空間光通信鏈路,以期未來在太空中擴(kuò)展機(jī)器學(xué)習(xí)的計算規(guī)模。
谷歌表示,借此或可進(jìn)一步「釋放它的最大潛力。」
畢竟太陽是太陽系中的終極能源,其輻射的能量超過人類總發(fā)電量的 100 萬億倍。在合適的軌道上,太陽能電池板的效率可比在地球上高出 8 倍,并且?guī)缀蹩梢猿掷m(xù)發(fā)電,從而減少對電池的需求。因此,太空可能是未來擴(kuò)展 AI 計算的最佳場所。
正是基于這一設(shè)想,谷歌發(fā)起了 Project Suncatcher。他們構(gòu)想了由太陽能衛(wèi)星組成的緊湊型星座,這些衛(wèi)星搭載 Google TPU,并通過自由空間光通信鏈路相連。
谷歌表示:「這種方法不僅具有巨大的規(guī)模化潛力,也能最大限度地減少對地球資源的影響。」
谷歌也發(fā)了一篇預(yù)印本論文《Towards a future space-based, highly scalable AI infrastructure system design》,分享了一些早期研究成果。其中介紹谷歌為實(shí)現(xiàn)這一宏偉目標(biāo)所取得的一些基礎(chǔ)性進(jìn)展,包括衛(wèi)星間的高帶寬通信、軌道動力學(xué)以及輻射對計算的影響。
![]()
- 論文標(biāo)題:Towards a future space-based, highly scalable AI infrastructure system design
- 論文地址:https://goo.gle/project-suncatcher-paper
論文摘要:如果將 AI 視為一種基礎(chǔ)性的通用技術(shù),那么我們應(yīng)預(yù)見到對 AI 算力及能源的需求將持續(xù)增長。太陽是太陽系中迄今最大的能源來源,因此值得探討未來的 AI 基礎(chǔ)設(shè)施如何最有效地利用這股能量。本文探索了一種可擴(kuò)展的太空機(jī)器學(xué)習(xí)計算系統(tǒng),利用配備太陽能陣列的衛(wèi)星群、基于自由空間光通信的星間鏈路,以及谷歌的張量處理單元(TPU)加速芯片。為實(shí)現(xiàn)高帶寬、低延遲的星間通信,這些衛(wèi)星將以近距離編隊飛行。我們展示了一個半徑 1 公里的 81 星衛(wèi)星集群的編隊飛行基本方案,并描述了利用高精度機(jī)器學(xué)習(xí)模型控制大規(guī)模星座的方法。Trillium TPU 經(jīng)過輻射測試,可承受相當(dāng)于 5 年任務(wù)周期的總電離劑量而無永久性損傷,并已對其位翻轉(zhuǎn)錯誤進(jìn)行了表征。發(fā)射成本是系統(tǒng)總體成本的關(guān)鍵組成部分;學(xué)習(xí)曲線分析表明,到 2030 年代中期,將衛(wèi)星發(fā)射至近地軌道(LEO)的成本可能降至每千克約 200 美元或更低。
其中表示:「通過專注于由更小、互連的衛(wèi)星組成的模塊化設(shè)計,我們正在為未來高度可擴(kuò)展的太空 AI 基礎(chǔ)設(shè)施奠定基礎(chǔ)。」
谷歌還表示:「Project Suncatcher 是谷歌挑戰(zhàn)艱難科學(xué)和工程問題的『登月』傳統(tǒng)的延續(xù)。就像所有的『登月』項目一樣,必然會存在未知數(shù)。但正是本著這種精神,我們才在十年前著手建造大規(guī)模量子計算機(jī)(那時候它還未被視作一個現(xiàn)實(shí)的工程目標(biāo)),并在 15 年前構(gòu)想了自動駕駛汽車,后者最終促成了 Waymo 的誕生,如今 Waymo 正在為全球提供數(shù)百萬次的客運(yùn)服務(wù)。」
系統(tǒng)設(shè)計與關(guān)鍵挑戰(zhàn)
該系統(tǒng)由一個衛(wèi)星網(wǎng)絡(luò)星座組成,很可能運(yùn)行在「晨昏同步近地軌道」(dawn–dusk sun-synchronous low earth orbit) 上,在那里它們幾乎可以持續(xù)接收到日照。這種軌道選擇最大限度地提高了太陽能收集效率,并減少了對笨重星載電池的需求。要使該系統(tǒng)可行,必須克服幾個技術(shù)障礙:
1. 實(shí)現(xiàn)數(shù)據(jù)中心規(guī)模的星間鏈路
大規(guī)模 ML 工作負(fù)載需要通過高帶寬、低延遲的連接將任務(wù)分布在眾多加速器上。為了提供與地面數(shù)據(jù)中心相當(dāng)?shù)男阅埽l(wèi)星之間的鏈路需要支持每秒數(shù)十 Tb (terabits) 的速率。
谷歌的分析表明,使用多通道密集波分復(fù)用 (DWDM) 收發(fā)器和空間復(fù)用技術(shù),這應(yīng)該是可能實(shí)現(xiàn)的。
然而,實(shí)現(xiàn)這種帶寬所需的接收功率水平比傳統(tǒng)的遠(yuǎn)程部署高出數(shù)千倍。由于接收功率與距離的平方成反比,因此可以通過讓衛(wèi)星以非常近的編隊(公里級或更近)飛行來克服這一挑戰(zhàn),從而「關(guān)閉」鏈路預(yù)算(link budget,即通信系統(tǒng)中端到端信號功率損耗的核算)。
谷歌團(tuán)隊已經(jīng)開始通過一個臺架式驗證器來驗證這種方法,該驗證器使用一對收發(fā)器成功實(shí)現(xiàn)了單向 800 Gbps(總計 1.6 Tbps)的傳輸速率。
2. 控制大型、緊密集群的衛(wèi)星編隊
高帶寬的星間鏈路要求衛(wèi)星以比任何現(xiàn)行系統(tǒng)都緊湊得多的編隊飛行。
谷歌開發(fā)了數(shù)值和解析物理模型來分析這種星座的軌道動力學(xué)。他們使用了一個從 Hill-Clohessy-Wiltshire 方程(該方程在開普勒近似中描述了衛(wèi)星相對于圓形參考軌道的軌道運(yùn)動)出發(fā)的近似法,以及一個基于 JAX 的可微模型來進(jìn)行數(shù)值精化,以考慮進(jìn)一步的擾動。
在其計劃的星座高度,地球引力場的非球形特性以及潛在的大氣阻力,是影響衛(wèi)星軌道動力學(xué)的主要非開普勒效應(yīng)。
下圖展示了一個位于軌道平面內(nèi)、平均集群高度為 650 公里的 81 顆衛(wèi)星星座配置示例(在一個完整軌道周期內(nèi))的軌跡。集群半徑 R=1 公里,在地球引力的影響下,次近鄰衛(wèi)星之間的距離在約 100–200 米之間振蕩。

在地球引力作用下,「自由落體」(無推力)星座的演變,建模的精細(xì)程度足以獲得太陽同步軌道。坐標(biāo)系為非旋轉(zhuǎn)坐標(biāo)系,相對于中心參考衛(wèi)星 S0。箭頭指向地心。洋紅色:衛(wèi)星 S0 的最近鄰。橙色:示例「外圍」衛(wèi)星 S1。橙色虛線:S1 相對于集群中心(在非旋轉(zhuǎn)坐標(biāo)系中)的位置。
模型顯示,當(dāng)衛(wèi)星定位僅相隔數(shù)百米時,可能只需要適度的「軌道保持」(station-keeping) 機(jī)動,就能在期望的太陽同步軌道內(nèi)維持星座的穩(wěn)定。
3. TPU 的輻射耐受性
為了讓 ML 加速器在太空中有效工作,它們必須能承受近地軌道的環(huán)境。
谷歌在 67MeV(兆電子伏特)的質(zhì)子束中測試了其 v6e Cloud TPU——Trillium,以檢驗其受總電離劑量 (TID) 和單粒子效應(yīng) (SEEs) 的影響。
結(jié)果很是喜人。雖然高帶寬內(nèi)存 (HBM) 子系統(tǒng)是最敏感的組件,但它們在累積劑量達(dá)到 2 krad (Si) 后才開始出現(xiàn)異常 —— 這幾乎是預(yù)期的(有屏蔽情況下)五年任務(wù)劑量 750 rad (Si) 的 3 倍。在單個芯片上測試的最大劑量 15 krad (Si) 下,沒有出現(xiàn)可歸因于 TID 的硬故障,這表明 Trillium TPU 對于空間應(yīng)用具有驚人的抗輻射能力。
4. 經(jīng)濟(jì)可行性與發(fā)射成本
從歷史上看,高昂的發(fā)射成本是大規(guī)模天基系統(tǒng)的主要障礙。然而,谷歌對歷史和預(yù)測的發(fā)射定價數(shù)據(jù)分析表明,隨著研究深入,到 2030 年代中期,價格可能會降至低于 200 美元/公斤
按此價格點(diǎn),以「千瓦/年」為單位計算,天基數(shù)據(jù)中心的發(fā)射和運(yùn)營成本可能變得與同等地面數(shù)據(jù)中心報告的能源成本大致相當(dāng)。
![]()
自 Falcon 1 成功發(fā)射以來,按通脹調(diào)整后的「最低實(shí)現(xiàn)價格」統(tǒng)計的 SpaceX 有效載荷發(fā)射質(zhì)量,按不同火箭類別遞進(jìn)展示。請注意,在 Falcon 9 和 Falcon Heavy 火箭出現(xiàn)了顯著的價格躍降。
未來方向
谷歌的初步分析表明,天基 ML 計算的核心概念并未受到基礎(chǔ)物理學(xué)或不可逾越的經(jīng)濟(jì)障礙的阻礙。
然而,重大的工程挑戰(zhàn)依然存在,例如熱管理、高帶寬地面通信以及在軌系統(tǒng)的可靠性。
為了開始應(yīng)對這些挑戰(zhàn),谷歌的下一個里程碑是與 Planet 公司合作執(zhí)行一次「學(xué)習(xí)任務(wù)」(learning mission),計劃在 2027 年初發(fā)射兩顆原型衛(wèi)星。該實(shí)驗將測試谷歌模型和 TPU 硬件在太空中的運(yùn)行情況,并驗證使用光通信星間鏈路執(zhí)行分布式 ML 任務(wù)的可行性。
最終,隨著研究繼續(xù),吉瓦 (gigawatt) 級的衛(wèi)星星座或?qū)⒊蔀榭赡?/strong>;進(jìn)而催生出更天然適合太空環(huán)境的新型計算架構(gòu)。
正如復(fù)雜的片上系統(tǒng) (system-on-chip) 技術(shù)的發(fā)展是受到現(xiàn)代智能手機(jī)的推動并反過來成就了智能手機(jī)一樣,規(guī)模化和集成化也將推動太空中的無限可能。
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.