![]()
新智元報道
編輯:定慧 桃子
【新智元導讀】谷歌TPU也要上空了!「登月計劃」Project Suncatcher推出,預計在2027年發射兩顆原型衛星,用太陽能驅動AI。
繼英偉達之后,谷歌也要把TPU送上太空了!
今天,谷歌官宣「Project Suncatcher」(捕日者計劃),要在太空建設可擴展的AI計算系統。
![]()
它將利用幾乎無限的太陽能量,相當于人類總發電量100萬億倍,為下一代機器學習注入動力。
谷歌CEO劈柴稱之為,「全新的登月計劃」。
![]()
預計2027年,谷歌與Planet將把兩顆原型衛星送入軌道,一個全新里程碑即將實現。
不過,AI算力上空之前,還有許多亟待解決的工程難題。
好在,谷歌新一代Trillium架構TPU,在模擬近地軌輻射水平的粒子加速器測試中,「扛住了」太空輻射。
除此之外,熱管理、在軌系統可靠性等,仍是需要攻克的工程挑戰。
太陽直接給AI充能
谷歌最新的論文叫做《邁向未來基于太空的、高度可擴展的人工智能基礎設施系統設計》。
看名字似乎有些長,但是這篇論文,還有一個簡單的文件名,Suncatcher,太陽捕捉者、捕日計劃。
![]()
AI對算力的需求正在催生一個難以想象的需求,一個地球目前也無法滿足的需求:電量不夠了。
于是,這些AI巨頭開始把目光投向天空,投向太陽。
在太陽系中,太陽的能量輸出為3.86 × 10^26瓦,發出的能量超過人類總電力產量的100萬億倍以上。
處于合適軌道時,太陽能板的產能可比地球上高出多達8倍,并且幾乎可以持續發電,從而減少對電池的依賴。
在未來的某個時候,為AI供能的最佳方式很可能就是直接利用太陽能!
谷歌提出一種替代方案:不是從太空向地球傳輸電力,再供給AI數據中心。
而是直接建立基于太空的機器學習「數據中心」,由許多太陽能供電的衛星通過自由空間光學星間鏈路聯網構成。

一個自由下落(無推力)星座在地球引力作用下的演化過程,其建模細節足以推算出太陽同步軌道。該模型位于一個非旋轉坐標系中,并以中心參考衛星S0為參照。箭頭指向地心。品紅色:衛星S0的最近鄰衛星。橙色:示例「外圍」衛星S1。橙色虛線:S1 相對于集群中心的位置(在非旋轉坐標系中)。
系統設計與關鍵挑戰
谷歌提出的系統由一個「網絡化的衛星星座」構成,可能會運行在晨昏太陽同步低地球軌道上。
在該軌道上,衛星能夠近乎持續地接收到陽光照射。
這種軌道選擇最大化了太陽能的收集,并減少了對重型星載電池的需求。為使該系統成為可能,必須克服以下幾項技術挑戰:
1. 打造數據中心級別的星間鏈路
大規模機器學習工作負載要求將任務分布在眾多加速器上,并通過高帶寬、低延遲的連接進行通信。
為了提供堪比地面數據中心的性能,衛星之間的鏈路需要支持每秒數十太比特(Tbps)的傳輸速率。
谷歌分析表明,采用「多通道密集波分復用」(DWDM)收發器和空間復用技術,這一目標有望實現。
![]()
然而,要達到如此高的帶寬,所需的接收功率水平要比傳統遠程部署高出數千倍。
由于接收功率與距離的平方成反比,可以讓衛星以非常緊密的編隊(間距在公里級或更小)飛行來應對這一挑戰,從而滿足鏈路預算的要求,即通信系統中端到端信號功率損耗的核算。
谷歌團隊已通過一個實驗平臺驗證系統著手驗證此方法,該系統使用一對收發器成功實現了單向800Gbps(總計1.6Tbps)的傳輸速率。
2. 控制大型、緊密集群的衛星編隊
高帶寬星間鏈路要求衛星以遠比現有任何系統都更緊湊的編隊飛行。
為此,谷歌團隊開發了數值和解析物理模型,來分析此類星座的軌道動力學。
他們從希爾-克洛赫西-威爾特方程(Hill-Clohessy-Wiltshire equations)出發,采用一種近似方法,并利用一個基于JAX的可微分模型進行數值優化,以計入更多的攝動因素。
![]()
希爾-克洛赫西-威爾特方程組在開普勒近似下,描述了衛星相對于圓形參考軌道的運動
在谷歌規劃的星座高度上,地球引力場的非球形特性以及潛在的大氣阻力,是影響衛星軌道動力學最主要的非開普勒效應。
下圖標示了一個包含81顆衛星的示例星座在一個完整軌道周期內的軌跡,該星座位于軌道平面內,平均集群高度為650公里。
集群半徑R=1公里,在地球引力影響下,次近鄰衛星間的距離在約100-200米的范圍內振蕩。
模型表明,在衛星間距僅數百米的情況下,或許只需進行適度的軌道保持機動,即可在預期的太陽同步軌道上維持星座的穩定。
3. TPU 的抗輻射能力
為了讓機器學習加速器在太空中有效運行,它們必須能夠承受低地球軌道的嚴苛環境。
谷歌在67MeV的質子束中對谷歌的v6e云TPU——Trillium進行了測試,以評估總電離劑量(TID)和單粒子效應(SEE)對其造成的影響。
測試結果十分喜人。
![]()
盡管高帶寬內存(HBM)子系統是最敏感的組件,但它們直到累積輻射劑量達到2 krad(Si) 時才開始出現異常——這幾乎是預期的(有屏蔽防護下)五年任務總劑量750 rad(Si)的三倍。
在對單個芯片高達15 krad(Si)的極限劑量測試中,沒有出現任何可歸因于總電離劑量的硬故障。
這表明,Trillium TPU 對于太空應用而言,表現出驚人的抗輻射能力。
4. 經濟可行性與發射成本
歷史上,高昂的發射成本一直是部署大規模天基系統的主要障礙。
然而,谷歌對歷史及預測的發射價格數據分析表明,只要(成本)學習率能持續下去,到2030年代中期,發射價格有望降至每公斤200美元以下。
在這一價格水平上,以「每千瓦/年」為單位計算,一個天基數據中心的發射和運營成本,或將與公開報道的同等規模地面數據中心的能源成本大致相當。
解讀谷歌星間鏈路
大規模地面機器學習(ML)集群的網絡需求遠遠超出現有衛星間鏈路(ISL)技術的能力。
例如,谷歌的TPU超級計算機采用兩層網絡架構。高速數據中心網絡一種定制的低延遲光學芯片間互連(ICI)每芯片吞吐量達數百吉比特每秒。
相比之下,商業可用的光學ISL提供的速率僅在1–100Gbps范圍內。
![]()
圖中X軸(距離,單位:km):表示光學星間鏈路(OISL)中數據傳輸的距離,范圍從不到1公里到超過10,000公里。Y軸(帶寬,單位:Gbps):表示不同光學系統在對應距離下所能實現的帶寬。
可以看到,距離和帶寬之間呈現出典型的反比關系,即隨著距離增加,帶寬會下降,這在光通信中是常見的現象,因為光信號在傳播過程中會衰減。
像8x8空間復用這種系統,適用于非常短的通信距離,能夠提供較高的帶寬;而像Starlink和24路DWDM這種系統則適用于較長距離的通信,能夠在更遠的距離上傳輸大量數據。
谷歌提出的星間通信方案主要是:
飛行衛星群處于近距離編隊(距離在「數百米至幾公里」量級)以大幅降低鏈路路徑損耗,從而獲得高接收功率。
利用自由空間光通信結合多通道密集波分復用(DWDM)技術(類似或采用于地面數據中心的商用DWDM收發器)來實現每鏈路10?Tbps級別的帶寬目標。
在距離極短的時候,還考慮「空間復用」多個光束共傳以進一步提升容量。
參考資料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
https://x.com/sundarpichai/status/1985754323813605423
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.