- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
英偉達(dá)和谷歌,搶著上天了!
搭載英偉達(dá)H100的衛(wèi)星已經(jīng)在這個月被送入太空,谷歌這邊也不甘落后——
CEO劈柴哥表示要把TPU也發(fā)射上去,最早的兩顆衛(wèi)星2027初啟程。
![]()
未來,兩家都打算在太空建立起吉瓦級的數(shù)據(jù)中心。
網(wǎng)友表示,在太空部署算力的想法真的很酷。
![]()
不過這個賽道上,領(lǐng)先的既不是英偉達(dá)也不是谷歌,而是一家來自中國的公司,更早之前就已經(jīng)開啟了太空算力布局。
AI芯片要上天了
英偉達(dá)芯片上天,主要是由Inception計劃孵化的初創(chuàng)公司Starcloud執(zhí)行。
本月剛剛發(fā)射的Starcloud-1衛(wèi)星搭載了H100,重60公斤,大小與小型冰箱相當(dāng)。
之所以選擇英偉達(dá)芯片,是因為Starcloud需要具備與地球數(shù)據(jù)中心相媲美的性能,而英偉達(dá)GPU在訓(xùn)練、微調(diào)和推理方面性能最佳。
Starcloud-1將接收來自合成孔徑雷達(dá)(SAR)衛(wèi)星群的數(shù)據(jù),并在太空中對這些數(shù)據(jù)進(jìn)行實時處理然后傳回地球。
![]()
同時Starcloud還是Google for Startups Cloud AI Accelerator計劃的“畢業(yè)生”,計劃在軌道上使用H100運行谷歌的開源模型Gemma,證明大型語言模型在外太空運行的可行性。
Starcloud最早將于明年啟動商業(yè)服務(wù),后續(xù)還計劃把Blackwell也送入太空,終極目標(biāo)是建造一個功率達(dá)5吉瓦、跨度約2.5英里(約4公里)的軌道數(shù)據(jù)中心。
CEO Philip Johnston還預(yù)言,10年之內(nèi),新建的數(shù)據(jù)中心將全部建在太空。
![]()
谷歌這邊起手稍晚了些,計劃把自家的TPU送上太空,兩顆原型衛(wèi)星預(yù)計在2027年初發(fā)射。
谷歌把該計劃命名為“太陽捕手計劃”(Project Suncatcher)。
![]()
原因是計算星座中的衛(wèi)星將全部通過太陽能供能,之間的通信鏈路也是通過自由空間光通信實現(xiàn)。
最早的兩顆原型衛(wèi)星將測試谷歌TPU在太空中的實際運行情況,同時對光通信鏈路進(jìn)行驗證,探索其執(zhí)行分布式機器學(xué)習(xí)任務(wù)的可行性。
遠(yuǎn)期來看,谷歌的終極目標(biāo),也是在太空中建成吉瓦級的數(shù)據(jù)中心。
太空部署的優(yōu)勢和挑戰(zhàn)
關(guān)于在太空中部署算力設(shè)施的優(yōu)勢,兩家都進(jìn)行了論證,谷歌甚至還為此專門發(fā)了一篇論文。
![]()
首先就是成本優(yōu)勢,Starcloud這邊給出的數(shù)字認(rèn)為,即使算上發(fā)射費用,太空能源成本也僅有陸基方案的1/10。
谷歌這邊則給出了更具體的計算。
假設(shè)LEO發(fā)射成本降至每公斤200美元,則衛(wèi)星的單位電力年均成本可降至810美元每千瓦年,與當(dāng)前美國數(shù)據(jù)中心570到3000美元的電力成本區(qū)間相當(dāng)。
并且發(fā)射成本呈現(xiàn)下降趨勢,以SpaceX為例,歷史數(shù)據(jù)顯示其每年發(fā)射載重量翻倍,單價下降20%,若維持此曲線,預(yù)計2035年前可將每公斤的發(fā)射成本降低至200美元以內(nèi)。
而當(dāng)馬斯克星艦實現(xiàn)重復(fù)使用時,發(fā)射成本有望降至每公斤60美元甚至15美元,成本持續(xù)且加速下降。
成本低的一個重要原因,就是電力更容易獲取——
谷歌論文顯示,太陽的能量輸出超過人類總發(fā)電量的100萬億倍,在合適的軌道上,太陽能電池板的效率可比在地球上高出8倍,并且?guī)缀蹩梢猿掷m(xù)發(fā)電,從而減少對電池的需求。
再來就是散熱,與許多地球上的數(shù)據(jù)中心依靠蒸發(fā)塔利用淡水進(jìn)行冷卻不同,Starcloud的太空數(shù)據(jù)中心可以利用深空的真空作為無限的散熱器。
英偉達(dá)與Starcloud聯(lián)合開發(fā)了真空散熱架構(gòu),通過衛(wèi)星外殼的高導(dǎo)熱材料將H100的熱量傳導(dǎo)至表面,再以紅外輻射形式排向太空。
此外就是衛(wèi)星數(shù)據(jù)的在軌處理——其他衛(wèi)星所產(chǎn)生的數(shù)據(jù),如果傳回地面再做計算將耗費大量通信資源,有了天基衛(wèi)星之后可以在軌完成運算,只把運算結(jié)果進(jìn)行回傳,從而減輕通信壓力。
Starcloud對SAR衛(wèi)星數(shù)據(jù)的處理,就是對這一路徑的一種嘗試。
谷歌這邊還進(jìn)行了更多驗證。
比如通信鏈路,使用現(xiàn)成DWDM模塊(如400G PM-16QAM光模塊),在實驗中已成功實現(xiàn)800Gbps單向(1.6Tbps雙向)短距光通信,證明此類模塊可用于小尺度衛(wèi)星集群。
還有大規(guī)模衛(wèi)星的控制,谷歌的模型顯示,只需要適度的軌道保持機動,就維持星座的穩(wěn)定運行。
![]()
還有TPU對輻射的耐受性,谷歌表示,即使是敏感的HBM組件也要在在累積劑量達(dá)到2000rad(Si)后才開始出現(xiàn)異常,這一數(shù)值幾乎是預(yù)期五年任務(wù)劑量的三倍。
所以總的來說,天基機器學(xué)習(xí)計算的核心概念并未受到基本物理定律或不可逾越的經(jīng)濟(jì)障礙的限制,但也仍然存在諸多重大的工程挑戰(zhàn),例如熱管理、高帶寬地面通信以及在軌系統(tǒng)可靠性。
國產(chǎn)算力衛(wèi)星已常態(tài)化商用
Starcloud這邊剛把H100送上天,谷歌的TPU更是要等上一年多才能進(jìn)入太空,但此時中國首個太空算力星座已經(jīng)發(fā)射快半年了。
今年5月,之江實驗室“三體計算星座”的首批12顆衛(wèi)星已被送入預(yù)定軌道。
這十二顆計算衛(wèi)星,每顆衛(wèi)星均具備太空計算、太空互聯(lián)的能力,還搭載了之江實驗室承擔(dān)研制的星載智能計算機等太空計算軟硬件和天基模型,實現(xiàn)了“算力上天、在軌組網(wǎng),模型上天”。
相比于傳統(tǒng)的應(yīng)用型衛(wèi)星,計算衛(wèi)星將單顆衛(wèi)星的計算能力從T級提升至P級,首發(fā)星座在軌計算能力達(dá)到5POPS,極大地提升了單星高性能太空計算的能力。
這些衛(wèi)星還能形成“互聯(lián)網(wǎng)”一樣的互聯(lián)互通,衛(wèi)星之間使用激光通信,通信速度最高可達(dá)100Gbps。
并且今年9月,該星座已經(jīng)實現(xiàn)了常態(tài)化商業(yè)運行。
現(xiàn)在,隨著英偉達(dá)和谷歌的加入,這場太空AI競賽也越來越精彩了。
[1]https://blogs.nvidia.com/blog/starcloud/?linkId=100000388085273
[2]https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.