<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      阿里大招震驚老外:將英偉達顯卡用量降了 82%!

      0
      分享至


      當你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價值十幾萬元的A100顯卡。

      但除了偶爾這樣回答問題,它的 95% 的時間卻在“發呆”。這聽起來有點奢侈,但這就是當前大模型市場的現實。

      最近,阿里和北大聯合團隊在頂級計算機系統會議上發表了一篇論文《Aegaeon:面向市場并發大語言模型推理的高效 GPU 共享系統》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。

      他們進行了三個多月的測試,效果非常震驚:從原本服務幾十個模型需要的 1192 張英偉達 H20 顯卡,降到只要 213 張。

      直接降了 82%!

      他們是怎么做到的?

      01| 問題:模型太多,GPU 太閑

      現在的大模型市場(比如 Hugging Face)上,動輒上百萬個模型。有的紅的發紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個月都沒幾個人調用。

      但問題來了:

      熱門模型 :請求突然暴增,GPU 不夠用,用戶排隊等回復,我們都體驗過 DeepSeek 排隊的時候。

      冷門模型 :常年沒人用,但為了“隨時能響應”,還得給它獨占一張 GPU——結果這張卡一年 99% 的時間在吃灰。

      阿里云內部數據顯示:17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花 幾十萬 租了一棟別墅,結果只用來放一個快遞柜,一年大部分時間還鎖著門。


      擅長降本的中國工程師們,這怎么能忍?

      02| 舊方案為啥不行?

      這么嚴重的一個問題,當然有人想過要去優化,之前有兩種主流的做法:

      “拼車”式多模型共存 (Multiplexing):把兩三個模型塞進同一張 GPU,輪流跑。問題是大模型動輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

      “隨用隨開”自動擴縮容 (Auto-scaling):不用的時候把模型“關掉”,用的時候再從內存或硬盤“拉起來”。

      這聽起來很美,但實際很慢——加載一個 13B 模型要好幾秒,用戶早就跑了。

      更糟的是,這些系統都是按“整個請求”來調度的。

      就像餐廳點菜,哪怕你只需要一個勺子,也必須等到前面客人的一桌菜全上完,你才能點。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

      03| Aegaeon 的妙招


      【溫馨提示:這部分非技術人員跳過也無妨】

      Aegaeon 的核心思想很反直覺:

      別等一個請求跑完,而是“邊跑邊換”,像流水線一樣切碎任務。

      它把大模型推理拆成兩個階段:Prefill(備料階段):讀你輸入的問題,生成第一個字;Decoding(吐字階段):一個字一個字往后吐。

      Aegaeon 干了兩件關鍵事:

      1. 按“token”(字)級別做調度

      不再等一個請求跑完才切模型;而是每生成幾個字,就看看有沒有更緊急的任務,有就立刻切換。

      這樣,一張 GPU 可以同時服務 7 個甚至更多模型,而不是 2~3 個。

      2. 把“切換成本”壓到極致

      傳統切換要 10 秒以上,Aegaeon 通過三大優化,把開銷砍掉 97%:

      • 組件復用:推理引擎只初始化一次,模型權重單獨換;

      • 顯存自管:自己管內存分配,避免碎片,不用反復“垃圾回收”;

      • KV Cache 精細同步:KV Cache 相當于模型在吐字時記下的“關鍵筆記”,用于加速后續生成。

      Aegaeon 優化了數據搬運和計算流程,讓它們可以同時進行,互不干擾,實現了亞秒級切換。


      聽到這是不是有點懵,又有點似曾相似?

      沒錯,實際上 Aegaeon 這種“隨時中斷,切換緊急任務”的邏輯,跟我們到電腦操作系統里面的 CPU 調度(即“搶占式調度”)原理很像。

      CPU 也是把程序執行切成時間片來輪換,以至于我們會認為它在并發處理多個任務。

      但 CPU 切換任務的開銷很小,大模型可不一樣,它涉及到數 GB 數據的搬運。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級切換。

      04|效果有多猛?

      有效吞吐量提示 1.5~9 倍:同樣硬件,能服務更多用戶;

      支持請求速率提高 2~2.5 倍:高峰期也不卡;

      生產環境實測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當于省下幾千萬的硬件和電費!

      而且,用戶完全無感,沒人覺得“變慢了”。

      05|為什么這事很重要?


      現在的大模型競爭,焦點往往是誰的參數更大、誰擁有的 GPU 數量更多。

      但現實是:真正的競爭優勢在于極致的工程效率,在于能否將每一分算力榨干,實現成本結構的根本性優化。

      像阿里云、 DeepSeek 這樣的中國團隊已經證明,要打出大廠級別的效果,靠的不是資源堆砌,而是對算力的最優利用以及在算法層面的突破。

      有海外網友一針見血地評論:“中國團隊正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”

      另一位網友感慨:“DeepSeek 把 API 價格砍半,這不是營銷,是成本革命。”

      當潮水退去,真正能走進千行百業、實現大規模普及的 AI,從來不是最“大”或最“貴”的那個,而是品質可靠、性價比最高的那個。

      附:關鍵詞解釋

      論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

      如果你覺得這篇文章有用,歡迎轉發給那個總在抱怨“GPU 不夠用”的朋友

      本文由「AI 范兒」出品

      感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉發三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      秦雯錄音風波升級:曝老公名下關聯9家公司,5家已注銷,4家存續

      秦雯錄音風波升級:曝老公名下關聯9家公司,5家已注銷,4家存續

      小徐講八卦
      2025-11-05 12:42:10
      重慶燃氣抄表員不足工人一年凈減121人 整改不力被罰810萬李金陸掌舵17月離任

      重慶燃氣抄表員不足工人一年凈減121人 整改不力被罰810萬李金陸掌舵17月離任

      長江商報
      2025-11-05 09:54:55
      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      特特農村生活
      2025-11-05 14:31:59
      總決賽爆大冷:衛冕冠軍0-2慘敗,薩巴倫卡險勝,2大名將被淘汰

      總決賽爆大冷:衛冕冠軍0-2慘敗,薩巴倫卡險勝,2大名將被淘汰

      知軒體育
      2025-11-05 16:17:18
      國民黨中評委提案:恢復國統綱領,鄭麗文被首次威脅“下臺負責”

      國民黨中評委提案:恢復國統綱領,鄭麗文被首次威脅“下臺負責”

      墨蘭史書
      2025-11-04 12:20:03
      確認了!今天抵達武漢,持續6天

      確認了!今天抵達武漢,持續6天

      蔡甸在線
      2025-11-05 12:09:01
      73年毛主席準備任命田維新為總政主任,交談時故意問:曹植埋哪了

      73年毛主席準備任命田維新為總政主任,交談時故意問:曹植埋哪了

      蜉蝣說
      2025-11-02 15:00:52
      宴會上,毛主席問溥儀:傳國玉璽去哪了?溥儀的回答引起一片嘩然

      宴會上,毛主席問溥儀:傳國玉璽去哪了?溥儀的回答引起一片嘩然

      南書房
      2025-10-25 23:50:03
      中雨、降溫、8級陣風!陜西新一輪降雨時間確定

      中雨、降溫、8級陣風!陜西新一輪降雨時間確定

      環球網資訊
      2025-11-05 15:25:04
      兩名美國猶太女子幫巴勒斯坦農民采橄欖,被以色列禁入境十年

      兩名美國猶太女子幫巴勒斯坦農民采橄欖,被以色列禁入境十年

      桂系007
      2025-11-02 23:55:06
      用了30年的不粘不銹鋼鍋要復產了,預售價60元!

      用了30年的不粘不銹鋼鍋要復產了,預售價60元!

      恪守原則和底線
      2025-11-01 05:10:03
      上海醫保的“二次報銷”看似復雜,實則是精準幫扶的民生福利

      上海醫保的“二次報銷”看似復雜,實則是精準幫扶的民生福利

      冒泡泡的魚兒
      2025-11-05 13:56:52
      大連軟件園的裁員潮不是偶然

      大連軟件園的裁員潮不是偶然

      歲月有情1314
      2025-11-05 14:49:00
      活了30年才知道:這9個東西要“倒著用”,很多人一直都用錯了!

      活了30年才知道:這9個東西要“倒著用”,很多人一直都用錯了!

      小熊侃史
      2025-11-02 19:35:51
      和中國談完就翻臉?特朗普向戰爭部下了道鐵令,中方直接把話挑明

      和中國談完就翻臉?特朗普向戰爭部下了道鐵令,中方直接把話挑明

      漫步獨行俠
      2025-11-05 16:52:54
      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      趣文說娛
      2025-11-05 16:48:23
      社評:別讓安世事件成為歐洲市場經濟的污點

      社評:別讓安世事件成為歐洲市場經濟的污點

      環球網資訊
      2025-11-04 23:33:02
      去除VAR爭議判罰后利物浦將跌至聯賽第六,切爾西將升至第五

      去除VAR爭議判罰后利物浦將跌至聯賽第六,切爾西將升至第五

      懂球帝
      2025-11-05 17:53:12
      巴黎主力后衛遭迪亞斯鏟哭,歐冠官方發聲譴責,球迷:世界杯懸了

      巴黎主力后衛遭迪亞斯鏟哭,歐冠官方發聲譴責,球迷:世界杯懸了

      側身凌空斬
      2025-11-05 07:01:52
      鄭麗文不裝了?國臺辦回應武統后,鄭麗文宣稱:絕不放棄武力保臺

      鄭麗文不裝了?國臺辦回應武統后,鄭麗文宣稱:絕不放棄武力保臺

      肖茲探秘說
      2025-11-05 14:22:34
      2025-11-05 18:31:00
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      572文章數 163關注度
      往期回顧 全部

      數碼要聞

      AMD蘇姿豐確認2nm Zen 6架構EPYC處理器2026年登場

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      健康
      教育
      時尚
      本地

      親子要聞

      重度自閉癥孩子幸不幸福,要看帶養人費不費勁

      超聲探頭會加重受傷情況嗎?

      教育要聞

      倪文尖教授:中學生該如何進行整本書閱讀?從《朝花夕拾》談整本書閱讀思維養成

      壞了,看到劇本殺鼻祖了!

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区三区放荡人妻| 色偷偷亚洲精品一区二区| 国内少妇人妻偷人精品| 国产精品偷乱一区二区三区| 国产午夜精品在人线播放| 精品人妻少妇一区二区三区在线| 精品熟女日韩中文十区| 国产 一区二区三区视频| 免费无码肉片在线观看| 国产成人亚洲综合图区| 亚洲国产日韩一区三区| 强奷乱码中文字幕| 国模精品视频一区二区三区| 一二三三免费观看视频| 激情综合五月丁香亚洲| 亚洲春色在线视频| 天堂在线中文| 扎兰屯市| 久久99久国产麻精品66| 国产乱码精品一区二区三区四川人| 日韩中文字幕有码av| 精品免费看国产一区二区| 色综合色综合色综合久久| 亚洲成a人在线播放www| 日韩av裸体在线播放| 人人妻人人狠人人爽天天综合网 | 四虎库影成人在线播放| 视频一区视频二区视频三区| 菠萝菠萝蜜午夜视频在线播放观看 | 国产区精品视频自产自拍| 熟妇人妻av中文字幕老熟妇| 在线 欧美 中文 亚洲 精品| 欧洲亚洲精品免费二区| 小鲜肉自慰网站| 国产毛片基地| 六十路老熟妇乱子伦视频| 日韩a∨精品日韩在线观看 | 亚洲人成网站观看在线观看| 久久精品国产6699国产精 | 色爱综合激情五月激情| 一区二区三区激情都市|