![]()
前天我寫了一篇文章介紹了微軟CEO最新采訪,由于數據中心缺電,導致微軟買的老黃的GPU插不上電,這已經不是一家公司的問題,而是未來全球性問題,這也導致了當前整個AI投資邏輯發生了巨大變化,感興趣的看我的文章:。結論就是能源已經成為了一個核心問題
結果今天谷歌反手就發了一項前瞻性研究計劃Project Suncatcher(太陽捕手計劃),旨在探索構建一個基于太空、可高度擴展的AI計算集群,你可以把它理解為"AI版星鏈"
![]()
谷歌這次把眼光放在整個太陽系了,隨著 AI 對計算能力和能源需求的爆炸式增長,地球資源將面臨巨大壓力,而太陽系中最豐富、最強大的能源——太陽能,在太空中可以被更高效地利用
簡單來說Project Suncatcher項目的設想是通過部署由太陽能供電、搭載 Google TPU 并由自由空間光通信連接的衛星星座,在近地軌道上構建一個“太空數據中心”。初步研究表明,盡管存在巨大的工程挑戰,但從基礎物理學和未來經濟可行性的角度來看,這一構想并非遙不可及
馬斯克已經給劈柴哥留言了,表示想法很好,劈柴哥說這完全得益于SpaceX在發射技術方面的巨大進步,看來馬斯克又要坐著數錢了
![]()
谷歌今天已經發表了預印本論文《 面向未來高度可擴展的天基人工智能基礎設施系統設計 》,揭秘了一些早期研究成果
![]()
paper:
https://services.google.com/fh/files/misc/suncatcher_paper.pdf
以下是論文的詳細解讀
為什么要在太空中進行 AI 計算?
LLM快速發展正在面臨前所未有的挑戰:對計算能力和能源的巨大需求
盡管算法效率在不斷提升,例如,Google Gemini 的單次查詢能耗在一年內降低了 33 倍,但 AI 產品和服務的增長速度更快,導致全球數據中心的能源需求急劇攀升。為了滿足這種增長,必須尋找更具可擴展性和可持續性的能源解決方案
Project Suncatcher 的出發點正是基于這一根本性問題,并將目光投向了我們太陽系中最宏偉的能量源:太陽
太陽的巨大潛力:太陽每秒釋放的能量高達 3.86 × 102? 瓦,是人類總發電量的 100 萬億倍以上,幾乎取之不盡
太空的獨特優勢:在太空中利用太陽能,相比于地球表面具有顯著優勢。在特定的軌道上,太陽能電池板幾乎可以 24 小時不間斷地接收光照,擺脫了晝夜循環和天氣的影響。這使得其發電效率比地球上中緯度地區的太陽能電池板高出最多 8 倍,同時也大大降低了對重型儲能電池的依賴
傳統的太空太陽能構想通常聚焦于如何將產生的電力傳輸回地球,但這面臨著巨大的技術挑戰。Project Suncatcher 提出了一個新的思路:與其將能源傳回地球,不如直接將數據中心(即計算任務)部署到太空。這個太空數據中心將由大量通過自由空間光鏈路高速互聯的太陽能衛星組成。這種方法不僅有望實現前所未有的計算規模,還能最大限度地減少對地球土地、水等寶貴資源的影響
這個項目是 Google 繼自動駕駛汽車(Waymo)和大規模量子計算機之后,又一次挑戰科學和工程極限的“登月計劃”
Suncatcher 系統設計:構建軌道上的 AI 集群
為了實現這一愿景,Project Suncatcher 提出了一個由模塊化、小型化衛星組成的星座系統設計。這種設計放棄了建造單一、巨大的“巨石型”空間數據中心的想法,因為后者需要復雜的在軌組裝,且在避障和結構上都面臨更大困難。模塊化設計則為逐步擴展和迭代提供了極大的靈活性
系統的核心設計要素包括:
軌道選擇:計劃將衛星星座部署在晨昏-太陽同步近地軌道(dawn–dusk sun-synchronous low earth orbit, LEO)。這個軌道的特點是衛星始終飛行在地球的晨昏線上方,這意味著它們幾乎可以持續不斷地被太陽照射。這不僅最大化了太陽能的收集效率,也進一步減少了對電池的需求,從而降低了衛星的質量和發射成本。同時,近地軌道也能有效降低與地面站通信的延遲
計算核心:每顆衛星都將攜帶 Google 的 TPU 加速器芯片。具體來說,初步測試使用的是 Trillium,即 Google 的 v6e Cloud TPU。這些芯片將負責執行大規模的機器學習(ML)工作負載
高速互聯:為了讓分散在多顆衛星上的 TPU 協同工作,如同在地面數據中心一樣,必須建立超高帶寬、超低延遲的連接。這通過自由空間光通信(FSO)技術實現。為了達到所需的通信性能,衛星之間將以非常近的距離(數百米到數公里)進行編隊飛行
編隊控制:維持如此緊密的衛星編隊是一項巨大的挑戰。系統將采用基于機器學習的飛行控制模型,精確控制每顆衛星的軌道,確保它們在保持緊密距離的同時能夠避免碰撞
熱量管理:在真空中,高功率的 TPU 芯片產生的熱量無法通過對流散發,必須通過熱管和散熱器以熱輻射的形式排向太空。高效的熱管理系統對于保證芯片在標稱溫度下穩定運行至關重要
這一系列設計旨在最大化每公斤發射質量所能提供的計算能力,從而在經濟上更具可行性。該研究計劃的首要任務,就是逐一攻克實現這一系統所面臨的四大核心技術挑戰
挑戰一:實現數據中心級的星間光通信
大規模機器學習任務,特別是模型訓練,要求計算集群中的各個加速器之間能夠進行海量數據的快速交換。地面上的 Google TPU 超級計算機通過定制的、每秒數G的光學芯片間互連來滿足這一需求。然而,目前商業化的星間光鏈路的數據速率通常在 1 到 100 G之間,遠不能滿足要求。Project Suncatcher 的目標是實現每秒數十TB的星間鏈路帶寬,這是一個數量級的飛躍
解決方案:短距離 + 多通道
谷歌研究團隊發現,可以采用類似于地面數據中心中成熟的商用密集波分復用(Dense Wavelength Division Multiplexing, DWDM)收發器技術。但這種技術有一個關鍵瓶頸:它需要非常高的接收光功率,通常在數百微瓦的量級,而傳統長距離星間通信的接收功率僅為 1 微瓦左右
物理學原理提供了解決方案:在自由空間中,接收到的光功率與通信距離的平方成反比(P ∝ 1/d2)。這意味著,只要將衛星之間的距離急劇縮短,就可以顯著提高接收功率,從而滿足 DWDM 收發器的工作條件,即“閉合鏈路預算”。通過將衛星編隊距離縮短至幾公里甚至更近,就能克服這一功率挑戰
進一步擴展:空間復用(Spatial Multiplexing)
當通信距離變得非常短時(例如,對于一個 10 厘米的望遠鏡,距離在 10 公里以內),光束的發散角很小,光斑尺寸也相應變小。這為空間復用帶來了新的機遇
研究團隊可以在一個總孔徑內集成多個獨立的光學收發系統陣列。例如,在一個 10 厘米的總孔徑中,可以集成一個 2x2 的 5 厘米光學系統陣列(適用于 2.5 公里距離),或一個 4x4 的 2.5 厘米光學系統陣列(適用于 0.63 公里距離)。每個子系統都承載一個獨立的 DWDM 數據流,從而使總帶寬成倍增加。這種擴展方式類似于 Google 在地面上使用的 Palomar 光學電路交換機
初步驗證
為了驗證這一概念,谷歌團隊已經搭建了一個實驗室規模的演示系統。該系統使用現成的商用組件,在一小段自由空間路徑上成功實現了單向 800G,雙向總計 1.6 Tb的傳輸速率,有力地證明了該技術路線的潛力
挑戰二:駕馭大規模緊密衛星編隊的軌道動力學
為了實現超高帶寬的星間通信,Suncatcher 的衛星星座需要以前所未有的緊密隊形飛行。谷歌研究團隊通過數值和解析物理模型,深入分析了這種星座的軌道動力學特性。
建模與仿真
團隊以一個由 81 顆衛星組成的平面星座作為示例進行分析。該星座的平均軌道高度為 650 公里,整個集群的半徑 R 為 1 公里。在這種配置下,相鄰衛星之間的距離會在 100 米到 200 米之間周期性地振蕩
建模的起點是經典的 Hill-Clohessy-Wiltshire (HCW) 方程,它描述了在理想開普勒軌道下,一顆衛星相對于另一顆衛星的相對運動。隨后,團隊使用了一個基于 JAX(一種可微分編程框架)的模型進行數值優化,該模型能夠計入更復雜的擾動因素
在 650 公里的軌道高度,影響衛星軌道最主要的非開普勒效應是地球引力場的非球形性(特別是由于地球扁率引起的 J2 項擾動)以及潛在的大氣阻力
“自由落體”星座的動態演化

仿真結果顯示,這個星座并非一個剛性結構,而是在引力作用下持續演化的“自由落體”集群。在沒有推力干預的情況下,整個星座的形狀會在一個軌道周期內完成兩次完整的變形循環,其邊界始終被一個旋轉的橢球所包裹
有趣的是,這種動態演化在很大程度上是穩定且可預測的。即使考慮了地球扁率(J2 項)的影響,這種可預測的漂移也可以通過對星座初始形狀進行微小的調整來補償。例如,將橢球的軸長比微調至 2:1.0037,就可以將 J2 項引起的漂移降低到每年每公里僅 3 米/秒的水平
結論:低成本的軌道維持
這些模型分析表明,維持這樣一個緊密編隊可能只需要適度的軌道維持機動,其燃料消耗可能不會顯著超過維持單顆衛星精確軌道所需。這意味著,控制這樣一個龐大而緊密的星座在技術上是可行的,且運營成本可控
挑戰三:商用 TPU 在太空輻射環境下的生存能力
將為地面數據中心設計的尖端商用芯片直接用于太空,最大的疑問在于它們能否承受太空中的輻射環境。Project Suncatcher 團隊對 Google 的 Trillium v6e Cloud TPU進行了首次公開的輻射測試
測試環境:
團隊使用67MeV(兆電子伏)的質子束來模擬太陽同步近地軌道上的輻射環境。在這個軌道上,主要的輻射源是穿透性強的質子和銀河宇宙射線
測試模擬了帶有 10 毫米鋁等效屏蔽下的情況,預計 5 年任務期內的總輻射劑量約為 750 rad(Si)。
輻射效應與測試結果:
1.總電離劑量(Total Ionizing Dose, TID):這是輻射粒子在芯片絕緣層中累積電荷造成的長期退化效應
測試發現,TPU 中最敏感的部件是HBM子系統
HBM 在累積劑量達到 2 krad(Si)時才開始出現異常,這幾乎是 5 年任務預期劑量的 3 倍
在高達 15 krad(Si) 的測試劑量下,芯片沒有出現因 TID 導致的永久性硬故障。結論是,Trillium TPU 對于太空應用而言具有“驚人的輻射耐受性”。
2.單粒子效應:這是單個高能粒子撞擊芯片,瞬間引起的邏輯錯誤或數據翻轉
HBM 同樣是 SEE 最敏感的部分,主要表現為不可糾正的 ECC(錯誤糾正碼)錯誤(UECCs)
對于典型的推理任務,觀測到的 HBM UECC 發生率約為每 50 rad 一次,換算下來,錯誤概率極低,大約為每一千萬次推理發生一次。這個錯誤率對于推理應用是完全可以接受的
然而,SEE 對模型訓練任務的影響,以及系統級緩解措施的有效性,還需要進一步研究
測試還發現,宿主系統的 CPU 和 RAM 分別在每 450 rad(Si) 和 400 rad(Si) 時會發生一次由 SEE 引起的系統崩潰
這些積極的測試結果表明,使用商用現成品(Commercial-Off-The-Shelf, COTS)的 ML 加速器在太空中是可行的,這為項目的經濟性奠定了重要基礎。
挑戰四:太空 AI 的經濟可行性與發射成本分析
歷史上,高昂的發射成本是所有大規模太空項目的最大障礙。Project Suncatcher 的可行性在很大程度上取決于未來發射成本能否顯著降低。
關鍵成本目標:
研究團隊將太空數據中心的“發射功率價格”,即每發射一單位功率(kW)到軌道并分攤到年($/kW/y)的成本,與地面數據中心的年均電力成本進行比較
目前美國地面數據中心的年電力成本大約在570 至 3,000 美元/kW/y之間
發射成本的下降趨勢:
分析 SpaceX 從獵鷹 1 號到重型獵鷹的歷史發射價格和載荷數據,揭示了一個大約 20% 的學習率,即累計發射質量每翻一番,每公斤發射價格就下降約 20%。
如果這一學習率得以維持(這將需要每年約 180 次 Starship 級別的發射),那么到2030 年代中期,將有效載荷送入近地軌道的成本有望降至每公斤 200 美元以下
另一種基于 Starship 公開規格和復用目標的分析甚至更為樂觀,預測成本可能低至每公斤 60 美元(10 次復用)甚至 15 美元(100 次復用)
成本對比結論:
以 Starlink v2 mini 衛星為例,如果發射成本降至 200 美元/公斤,其“發射功率價格”將約為 810 美元/kW/y
這個數字已經進入了地面數據中心電力成本的范圍,表明從經濟角度看,太空數據中心的運營成本(以發射成本為主要代表)可以與地面相當。即使發射成本的下降速度不及預期,例如降至 300 美元/公斤,相應的發射功率價格約為 1,200 美元/kW/y,仍然在可比范圍內
因此,隨著可重復使用運載火箭技術的成熟和規模化,發射成本將不再是不可逾越的障礙
未來的方向與下一步計劃
Project Suncatcher 的初步分析結果還不錯,證明了太空 AI 計算的核心概念并未被基礎物理學或無法克服的經濟障礙所否定。然而,要將這一愿景變為現實,仍有大量的工程挑戰需要解決,例如高效的真空熱管理、高帶寬的星地通信、以及在軌系統的長期可靠性與維護等。
為了應對這些挑戰,團隊規劃了清晰的下一步:
學習與驗證任務:團隊已與Planet公司合作,計劃在2027 年初發射兩顆原型衛星。這次在軌實驗將是關鍵的里程碑,旨在:
在真實的太空環境中測試和驗證軌道動力學模型。
檢驗 TPU 硬件在太空中的實際運行表現。
驗證使用星間光鏈路執行分布式機器學習任務的可行性
未來的集成化設計:
未來,當星座規模達到吉瓦級別時,可能需要采用更激進的衛星設計理念
團隊借鑒了智能手機行業從分立元件走向高度集成的片上系統的發展路徑,設想未來的計算衛星也可能采用一種高度一體化的設計,將太陽能收集、計算單元和熱管理系統緊密地結合在一起,從而實現質量和效率的最優化
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.