![]()
新智元報(bào)道
編輯:定慧 桃子
【新智元導(dǎo)讀】谷歌TPU也要上空了!「登月計(jì)劃」Project Suncatcher推出,預(yù)計(jì)在2027年發(fā)射兩顆原型衛(wèi)星,用太陽(yáng)能驅(qū)動(dòng)AI。
繼英偉達(dá)之后,谷歌也要把TPU送上太空了!
今天,谷歌官宣「Project Suncatcher」(捕日者計(jì)劃),要在太空建設(shè)可擴(kuò)展的AI計(jì)算系統(tǒng)。
![]()
它將利用幾乎無限的太陽(yáng)能量,相當(dāng)于人類總發(fā)電量100萬(wàn)億倍,為下一代機(jī)器學(xué)習(xí)注入動(dòng)力。
谷歌CEO劈柴稱之為,「全新的登月計(jì)劃」。
![]()
預(yù)計(jì)2027年,谷歌與Planet將把兩顆原型衛(wèi)星送入軌道,一個(gè)全新里程碑即將實(shí)現(xiàn)。
不過,AI算力上空之前,還有許多亟待解決的工程難題。
好在,谷歌新一代Trillium架構(gòu)TPU,在模擬近地軌輻射水平的粒子加速器測(cè)試中,「扛住了」太空輻射。
除此之外,熱管理、在軌系統(tǒng)可靠性等,仍是需要攻克的工程挑戰(zhàn)。
太陽(yáng)直接給AI充能
谷歌最新的論文叫做《邁向未來基于太空的、高度可擴(kuò)展的人工智能基礎(chǔ)設(shè)施系統(tǒng)設(shè)計(jì)》。
看名字似乎有些長(zhǎng),但是這篇論文,還有一個(gè)簡(jiǎn)單的文件名,Suncatcher,太陽(yáng)捕捉者、捕日計(jì)劃。
![]()
AI對(duì)算力的需求正在催生一個(gè)難以想象的需求,一個(gè)地球目前也無法滿足的需求:電量不夠了。
于是,這些AI巨頭開始把目光投向天空,投向太陽(yáng)。
在太陽(yáng)系中,太陽(yáng)的能量輸出為3.86 × 10^26瓦,發(fā)出的能量超過人類總電力產(chǎn)量的100萬(wàn)億倍以上。
處于合適軌道時(shí),太陽(yáng)能板的產(chǎn)能可比地球上高出多達(dá)8倍,并且?guī)缀蹩梢猿掷m(xù)發(fā)電,從而減少對(duì)電池的依賴。
在未來的某個(gè)時(shí)候,為AI供能的最佳方式很可能就是直接利用太陽(yáng)能!
谷歌提出一種替代方案:不是從太空向地球傳輸電力,再供給AI數(shù)據(jù)中心。
而是直接建立基于太空的機(jī)器學(xué)習(xí)「數(shù)據(jù)中心」,由許多太陽(yáng)能供電的衛(wèi)星通過自由空間光學(xué)星間鏈路聯(lián)網(wǎng)構(gòu)成。

一個(gè)自由下落(無推力)星座在地球引力作用下的演化過程,其建模細(xì)節(jié)足以推算出太陽(yáng)同步軌道。該模型位于一個(gè)非旋轉(zhuǎn)坐標(biāo)系中,并以中心參考衛(wèi)星S0為參照。箭頭指向地心。品紅色:衛(wèi)星S0的最近鄰衛(wèi)星。橙色:示例「外圍」衛(wèi)星S1。橙色虛線:S1 相對(duì)于集群中心的位置(在非旋轉(zhuǎn)坐標(biāo)系中)。
系統(tǒng)設(shè)計(jì)與關(guān)鍵挑戰(zhàn)
谷歌提出的系統(tǒng)由一個(gè)「網(wǎng)絡(luò)化的衛(wèi)星星座」構(gòu)成,可能會(huì)運(yùn)行在晨昏太陽(yáng)同步低地球軌道上。
在該軌道上,衛(wèi)星能夠近乎持續(xù)地接收到陽(yáng)光照射。
這種軌道選擇最大化了太陽(yáng)能的收集,并減少了對(duì)重型星載電池的需求。為使該系統(tǒng)成為可能,必須克服以下幾項(xiàng)技術(shù)挑戰(zhàn):
1. 打造數(shù)據(jù)中心級(jí)別的星間鏈路
大規(guī)模機(jī)器學(xué)習(xí)工作負(fù)載要求將任務(wù)分布在眾多加速器上,并通過高帶寬、低延遲的連接進(jìn)行通信。
為了提供堪比地面數(shù)據(jù)中心的性能,衛(wèi)星之間的鏈路需要支持每秒數(shù)十太比特(Tbps)的傳輸速率。
谷歌分析表明,采用「多通道密集波分復(fù)用」(DWDM)收發(fā)器和空間復(fù)用技術(shù),這一目標(biāo)有望實(shí)現(xiàn)。
![]()
然而,要達(dá)到如此高的帶寬,所需的接收功率水平要比傳統(tǒng)遠(yuǎn)程部署高出數(shù)千倍。
由于接收功率與距離的平方成反比,可以讓衛(wèi)星以非常緊密的編隊(duì)(間距在公里級(jí)或更小)飛行來應(yīng)對(duì)這一挑戰(zhàn),從而滿足鏈路預(yù)算的要求,即通信系統(tǒng)中端到端信號(hào)功率損耗的核算。
谷歌團(tuán)隊(duì)已通過一個(gè)實(shí)驗(yàn)平臺(tái)驗(yàn)證系統(tǒng)著手驗(yàn)證此方法,該系統(tǒng)使用一對(duì)收發(fā)器成功實(shí)現(xiàn)了單向800Gbps(總計(jì)1.6Tbps)的傳輸速率。
2. 控制大型、緊密集群的衛(wèi)星編隊(duì)
高帶寬星間鏈路要求衛(wèi)星以遠(yuǎn)比現(xiàn)有任何系統(tǒng)都更緊湊的編隊(duì)飛行。
為此,谷歌團(tuán)隊(duì)開發(fā)了數(shù)值和解析物理模型,來分析此類星座的軌道動(dòng)力學(xué)。
他們從希爾-克洛赫西-威爾特方程(Hill-Clohessy-Wiltshire equations)出發(fā),采用一種近似方法,并利用一個(gè)基于JAX的可微分模型進(jìn)行數(shù)值優(yōu)化,以計(jì)入更多的攝動(dòng)因素。
![]()
希爾-克洛赫西-威爾特方程組在開普勒近似下,描述了衛(wèi)星相對(duì)于圓形參考軌道的運(yùn)動(dòng)
在谷歌規(guī)劃的星座高度上,地球引力場(chǎng)的非球形特性以及潛在的大氣阻力,是影響衛(wèi)星軌道動(dòng)力學(xué)最主要的非開普勒效應(yīng)。
下圖標(biāo)示了一個(gè)包含81顆衛(wèi)星的示例星座在一個(gè)完整軌道周期內(nèi)的軌跡,該星座位于軌道平面內(nèi),平均集群高度為650公里。
集群半徑R=1公里,在地球引力影響下,次近鄰衛(wèi)星間的距離在約100-200米的范圍內(nèi)振蕩。
模型表明,在衛(wèi)星間距僅數(shù)百米的情況下,或許只需進(jìn)行適度的軌道保持機(jī)動(dòng),即可在預(yù)期的太陽(yáng)同步軌道上維持星座的穩(wěn)定。
3. TPU 的抗輻射能力
為了讓機(jī)器學(xué)習(xí)加速器在太空中有效運(yùn)行,它們必須能夠承受低地球軌道的嚴(yán)苛環(huán)境。
谷歌在67MeV的質(zhì)子束中對(duì)谷歌的v6e云TPU——Trillium進(jìn)行了測(cè)試,以評(píng)估總電離劑量(TID)和單粒子效應(yīng)(SEE)對(duì)其造成的影響。
測(cè)試結(jié)果十分喜人。
![]()
盡管高帶寬內(nèi)存(HBM)子系統(tǒng)是最敏感的組件,但它們直到累積輻射劑量達(dá)到2 krad(Si) 時(shí)才開始出現(xiàn)異常——這幾乎是預(yù)期的(有屏蔽防護(hù)下)五年任務(wù)總劑量750 rad(Si)的三倍。
在對(duì)單個(gè)芯片高達(dá)15 krad(Si)的極限劑量測(cè)試中,沒有出現(xiàn)任何可歸因于總電離劑量的硬故障。
這表明,Trillium TPU 對(duì)于太空應(yīng)用而言,表現(xiàn)出驚人的抗輻射能力。
4. 經(jīng)濟(jì)可行性與發(fā)射成本
歷史上,高昂的發(fā)射成本一直是部署大規(guī)模天基系統(tǒng)的主要障礙。
然而,谷歌對(duì)歷史及預(yù)測(cè)的發(fā)射價(jià)格數(shù)據(jù)分析表明,只要(成本)學(xué)習(xí)率能持續(xù)下去,到2030年代中期,發(fā)射價(jià)格有望降至每公斤200美元以下。
在這一價(jià)格水平上,以「每千瓦/年」為單位計(jì)算,一個(gè)天基數(shù)據(jù)中心的發(fā)射和運(yùn)營(yíng)成本,或?qū)⑴c公開報(bào)道的同等規(guī)模地面數(shù)據(jù)中心的能源成本大致相當(dāng)。
解讀谷歌星間鏈路
大規(guī)模地面機(jī)器學(xué)習(xí)(ML)集群的網(wǎng)絡(luò)需求遠(yuǎn)遠(yuǎn)超出現(xiàn)有衛(wèi)星間鏈路(ISL)技術(shù)的能力。
例如,谷歌的TPU超級(jí)計(jì)算機(jī)采用兩層網(wǎng)絡(luò)架構(gòu)。高速數(shù)據(jù)中心網(wǎng)絡(luò)一種定制的低延遲光學(xué)芯片間互連(ICI)每芯片吞吐量達(dá)數(shù)百吉比特每秒。
相比之下,商業(yè)可用的光學(xué)ISL提供的速率僅在1–100Gbps范圍內(nèi)。
![]()
圖中X軸(距離,單位:km):表示光學(xué)星間鏈路(OISL)中數(shù)據(jù)傳輸?shù)木嚯x,范圍從不到1公里到超過10,000公里。Y軸(帶寬,單位:Gbps):表示不同光學(xué)系統(tǒng)在對(duì)應(yīng)距離下所能實(shí)現(xiàn)的帶寬。
可以看到,距離和帶寬之間呈現(xiàn)出典型的反比關(guān)系,即隨著距離增加,帶寬會(huì)下降,這在光通信中是常見的現(xiàn)象,因?yàn)楣庑盘?hào)在傳播過程中會(huì)衰減。
像8x8空間復(fù)用這種系統(tǒng),適用于非常短的通信距離,能夠提供較高的帶寬;而像Starlink和24路DWDM這種系統(tǒng)則適用于較長(zhǎng)距離的通信,能夠在更遠(yuǎn)的距離上傳輸大量數(shù)據(jù)。
谷歌提出的星間通信方案主要是:
飛行衛(wèi)星群處于近距離編隊(duì)(距離在「數(shù)百米至幾公里」量級(jí))以大幅降低鏈路路徑損耗,從而獲得高接收功率。
利用自由空間光通信結(jié)合多通道密集波分復(fù)用(DWDM)技術(shù)(類似或采用于地面數(shù)據(jù)中心的商用DWDM收發(fā)器)來實(shí)現(xiàn)每鏈路10?Tbps級(jí)別的帶寬目標(biāo)。
在距離極短的時(shí)候,還考慮「空間復(fù)用」多個(gè)光束共傳以進(jìn)一步提升容量。
參考資料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
https://x.com/sundarpichai/status/1985754323813605423
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.