![]()
當你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價值十幾萬元的A100顯卡。
但除了偶爾這樣回答問題,它的 95% 的時間卻在“發呆”。這聽起來有點奢侈,但這就是當前大模型市場的現實。
最近,阿里和北大聯合團隊在頂級計算機系統會議上發表了一篇論文《Aegaeon:面向市場并發大語言模型推理的高效 GPU 共享系統》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。
他們進行了三個多月的測試,效果非常震驚:從原本服務幾十個模型需要的 1192 張英偉達 H20 顯卡,降到只要 213 張。
直接降了 82%!
他們是怎么做到的?
01| 問題:模型太多,GPU 太閑
現在的大模型市場(比如 Hugging Face)上,動輒上百萬個模型。有的紅的發紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個月都沒幾個人調用。
但問題來了:
熱門模型 :請求突然暴增,GPU 不夠用,用戶排隊等回復,我們都體驗過 DeepSeek 排隊的時候。
冷門模型 :常年沒人用,但為了“隨時能響應”,還得給它獨占一張 GPU——結果這張卡一年 99% 的時間在吃灰。
阿里云內部數據顯示:17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花 幾十萬 租了一棟別墅,結果只用來放一個快遞柜,一年大部分時間還鎖著門。
![]()
擅長降本的中國工程師們,這怎么能忍?
02| 舊方案為啥不行?
這么嚴重的一個問題,當然有人想過要去優化,之前有兩種主流的做法:
“拼車”式多模型共存 (Multiplexing):把兩三個模型塞進同一張 GPU,輪流跑。問題是大模型動輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。
“隨用隨開”自動擴縮容 (Auto-scaling):不用的時候把模型“關掉”,用的時候再從內存或硬盤“拉起來”。
這聽起來很美,但實際很慢——加載一個 13B 模型要好幾秒,用戶早就跑了。
更糟的是,這些系統都是按“整個請求”來調度的。
就像餐廳點菜,哪怕你只需要一個勺子,也必須等到前面客人的一桌菜全上完,你才能點。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。
03| Aegaeon 的妙招
![]()
【溫馨提示:這部分非技術人員跳過也無妨】
Aegaeon 的核心思想很反直覺:
別等一個請求跑完,而是“邊跑邊換”,像流水線一樣切碎任務。
它把大模型推理拆成兩個階段:Prefill(備料階段):讀你輸入的問題,生成第一個字;Decoding(吐字階段):一個字一個字往后吐。
Aegaeon 干了兩件關鍵事:
1. 按“token”(字)級別做調度
不再等一個請求跑完才切模型;而是每生成幾個字,就看看有沒有更緊急的任務,有就立刻切換。
這樣,一張 GPU 可以同時服務 7 個甚至更多模型,而不是 2~3 個。
2. 把“切換成本”壓到極致
傳統切換要 10 秒以上,Aegaeon 通過三大優化,把開銷砍掉 97%:
組件復用:推理引擎只初始化一次,模型權重單獨換;
顯存自管:自己管內存分配,避免碎片,不用反復“垃圾回收”;
KV Cache 精細同步:KV Cache 相當于模型在吐字時記下的“關鍵筆記”,用于加速后續生成。
Aegaeon 優化了數據搬運和計算流程,讓它們可以同時進行,互不干擾,實現了亞秒級切換。
![]()
聽到這是不是有點懵,又有點似曾相似?
沒錯,實際上 Aegaeon 這種“隨時中斷,切換緊急任務”的邏輯,跟我們到電腦操作系統里面的 CPU 調度(即“搶占式調度”)原理很像。
CPU 也是把程序執行切成時間片來輪換,以至于我們會認為它在并發處理多個任務。
但 CPU 切換任務的開銷很小,大模型可不一樣,它涉及到數 GB 數據的搬運。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級切換。
04|效果有多猛?
有效吞吐量提示 1.5~9 倍:同樣硬件,能服務更多用戶;
支持請求速率提高 2~2.5 倍:高峰期也不卡;
生產環境實測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當于省下幾千萬的硬件和電費!
而且,用戶完全無感,沒人覺得“變慢了”。
05|為什么這事很重要?
![]()
現在的大模型競爭,焦點往往是誰的參數更大、誰擁有的 GPU 數量更多。
但現實是:真正的競爭優勢在于極致的工程效率,在于能否將每一分算力榨干,實現成本結構的根本性優化。
像阿里云、 DeepSeek 這樣的中國團隊已經證明,要打出大廠級別的效果,靠的不是資源堆砌,而是對算力的最優利用以及在算法層面的突破。
有海外網友一針見血地評論:“中國團隊正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”
另一位網友感慨:“DeepSeek 把 API 價格砍半,這不是營銷,是成本革命。”
當潮水退去,真正能走進千行百業、實現大規模普及的 AI,從來不是最“大”或最“貴”的那個,而是品質可靠、性價比最高的那個。
附:關鍵詞解釋
論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf
如果你覺得這篇文章有用,歡迎轉發給那個總在抱怨“GPU 不夠用”的朋友
本文由「AI 范兒」出品
感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉發三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.