<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      北大阿里聯(lián)手破局算力浪費(fèi)難題,讓單個(gè)GPU最多支持7個(gè)模型

      0
      分享至

      每個(gè) GPU 最多可以支持 7 個(gè)模型、10 個(gè)模型所需 GPU 數(shù)量從 1192 個(gè)減至 213 個(gè)、最終節(jié)約高達(dá) 82% 的 GPU 資源——這便是由北京大學(xué)團(tuán)隊(duì)和阿里巴巴團(tuán)隊(duì)提出的名為 Aegaeon 的多模型服務(wù)系統(tǒng)實(shí)現(xiàn)的效果。相關(guān)論文發(fā)表于由美國計(jì)算機(jī)協(xié)會主辦的國際頂會 2025 年操作系統(tǒng)原理研討會(SOSP,Symposium on Operating Systems Principles)上,阿里云 CTO 周靖人也是相關(guān)論文的作者之一。


      圖 | 相關(guān)論文(來源:https://dl.acm.org/doi/pdf/10.1145/373)

      Aegaeon 能在 token 粒度上執(zhí)行模型自動(dòng)擴(kuò)縮容,從而能夠?qū)崿F(xiàn)有效的 GPU 池化(一種通過虛擬化技術(shù)將物理 GPU 資源動(dòng)態(tài)分配給多個(gè)模型使用的管理方法)。它以每個(gè) token 為基礎(chǔ)來調(diào)度多模型請求,并能做出自動(dòng)擴(kuò)縮容決策,從而可以實(shí)現(xiàn)服務(wù)質(zhì)量的最大化。它通過組件重用、顯式內(nèi)存管理和細(xì)粒度鍵值(KV,Key-Value)緩存同步,將自動(dòng)擴(kuò)縮容開銷降低了 97%。

      實(shí)驗(yàn)表明,與現(xiàn)有解決方案相比,Aegaeon 能維持高出 2 倍–2.5 的請求到達(dá)率,并能實(shí)現(xiàn)高出 1.5 倍–9 倍的有效吞吐量。目前,Aegaeon 已經(jīng)在阿里云 Model Studio 進(jìn)行 Beta 版部署并已服務(wù)于 10 個(gè)模型。

      下圖是 Aegaeon 的架構(gòu)圖,展示了它服務(wù)于多個(gè)模型的過程。具體來說,Aegaeon 先是通過代理層分發(fā)這些模型,代理層通過共享內(nèi)存機(jī)制與底層服務(wù)實(shí)例同步請求元數(shù)據(jù),以便確保負(fù)載均衡和容錯(cuò)。Aegaeon 可以將不同模型的請求分發(fā)到同一個(gè)實(shí)例,一旦請求被發(fā)送到某個(gè)實(shí)例,Aegaeon 會在 token 級調(diào)度器的指導(dǎo)之下調(diào)度它們的執(zhí)行。


      圖 | Aegaeon 的架構(gòu)圖(來源:https://dl.acm.org/doi/pdf/10.)



      解決 token 級調(diào)度難題,實(shí)現(xiàn)自動(dòng)擴(kuò)縮容成本優(yōu)化

      除了實(shí)現(xiàn)上述能力之外,Aegaeon 還解決了以下兩個(gè)技術(shù)問題:

      一方面,Aegaeon 解決了 token 級調(diào)度的挑戰(zhàn)。

      在 token 級別執(zhí)行自動(dòng)擴(kuò)縮容的時(shí)候,需要一定的調(diào)度策略來處理 token 級執(zhí)行時(shí)間和自動(dòng)擴(kuò)縮容延遲之間復(fù)雜的相互作用,同時(shí)還要滿足服務(wù)等級目標(biāo)(SLO,Service-Level Objective)要求,因此很難實(shí)現(xiàn)這一問題的最優(yōu)解,與此同時(shí)此前人們使用的啟發(fā)式方法很難實(shí)現(xiàn)多方面的平衡。

      為此,本次研究人員提出了一個(gè) token 級調(diào)度器,從而能夠以聯(lián)合的方式調(diào)度請求處理和自動(dòng)擴(kuò)縮容決策。鑒于首個(gè) token 和后續(xù) token 的執(zhí)行時(shí)間和 SLO 的差異比較大,因此研究人員采用了預(yù)填充與解碼階段解耦的架構(gòu),并對二者進(jìn)行獨(dú)立的調(diào)度和服務(wù)。針對預(yù)填充階段,他們打造了一個(gè)分組先到先服務(wù)調(diào)度器,以便將每個(gè)請求的首個(gè) token 時(shí)間實(shí)現(xiàn)最小化。

      另一方面,Aegaeon 實(shí)現(xiàn)了自動(dòng)擴(kuò)縮容成本優(yōu)化。

      盡管自動(dòng)擴(kuò)縮容已經(jīng)得到廣泛研究,但是在本次研究人員的調(diào)查中他們發(fā)現(xiàn),此前已有的解決方案都無法支持 token 級的自動(dòng)擴(kuò)縮容,因?yàn)檫@涉及到 KV 緩存換出、顯存碎片整理、引擎重新初始化、KV 緩存換入等一系列超出既有考慮的關(guān)鍵過程。如果不對此進(jìn)行優(yōu)化,這一序列可能要耗時(shí)數(shù)十秒左右,從而讓 token 級方案變得不切實(shí)際。

      而 Aegaeon 通過一系列深度優(yōu)化實(shí)現(xiàn)了高效的 token 級自動(dòng)擴(kuò)縮容。

      具體來說:

      其一,研究人員針對推理引擎的初始化步驟進(jìn)行了全面研究,借此識別并利用了引擎重新初始化中組件重用的機(jī)會;

      其二,研究人員針對 GPU 和主機(jī)內(nèi)存進(jìn)行了顯式內(nèi)存管理,借此消除了碎片和顯存碎片整理開銷;

      其三,研究人員實(shí)現(xiàn)了一種用于傳輸 KV 緩存的細(xì)粒度同步機(jī)制,實(shí)現(xiàn)了更好的執(zhí)行重疊和解耦。



      實(shí)現(xiàn)內(nèi)存零碎片,奠定 GPU 池化基石

      達(dá)成內(nèi)存零碎片,是 Aegaeon 實(shí)現(xiàn) GPU 池化的基礎(chǔ)。這得益于它的以下特質(zhì):

      其一,Aegaeon 擁有自管理的顯存緩沖區(qū)。

      為了減少顯存碎片,研究人員在 GPU 上為模型權(quán)重和 KV 緩存完全使用資管理的分配。啟動(dòng)的時(shí)候,Aegaeon 在一次分配中請求所有權(quán)重和 KV 緩存所需的顯存作為一個(gè)自管理緩沖區(qū),留下大約 10% 的空閑內(nèi)存供張量庫管理使用。

      這一緩沖區(qū)使用指針遞增的分配方式運(yùn)行,即通過遞增指針進(jìn)行連續(xù)分配,并且可以通過簡單地重置這一指針立即完成釋放。

      在每次的模型擴(kuò)容期間,Aegaeon 使用自定義包裝器類針對相關(guān)的 Python 類進(jìn)行猴子補(bǔ)丁 Monkey Patch,這些包裝器類由自管理緩沖區(qū)進(jìn)行分配和支持,這樣一來讓 Aegaeon 能夠繞過張量庫的分配機(jī)制,省去了調(diào)用顯存碎片整理的需要。

      其二,Aegaeon 能夠?qū)崿F(xiàn)快速的模型加載。

      它能通過將模型檢查點(diǎn)中的原始張量塊緩存在一個(gè)名為“模型緩存”的共享主機(jī)內(nèi)存區(qū)域來實(shí)現(xiàn)更快的模型加載。此外,每個(gè) GPU 關(guān)聯(lián)一個(gè)專用的“暫存緩沖區(qū)”,以用于在設(shè)備和主機(jī)之間暫存內(nèi)存拷貝。

      假如擴(kuò)容模型已經(jīng)緩存在主機(jī)內(nèi)存之中,Aegaeon 可以通過暫存緩沖區(qū)以多線程的、分塊的、流水線的方式,直接將權(quán)重從模型緩存復(fù)制到 GPU,從而實(shí)現(xiàn)與此前最優(yōu)解決方案相當(dāng)?shù)募虞d時(shí)間。


      (來源:https://dl.acm.org/doi/pdf/10.1145/3731569.3764815)

      其三,Aegaeon 也實(shí)現(xiàn)了統(tǒng)一 KV 緩存。

      為了解決存儲幾種不同形狀的 KV 緩存時(shí)的內(nèi)存碎片問題,Aegaeon 借鑒了經(jīng)典的內(nèi)存管理技術(shù),采用 Slab 分配來為每個(gè)可能的形狀構(gòu)建統(tǒng)一的 KV 緩存。每個(gè) KV 緩存區(qū)域被劃分為固定大小的塊。每個(gè) Slab 被分配給一個(gè)形狀來作為這一特定形狀的 KV 緩存塊池,這樣一來就能在真實(shí)工作負(fù)載中實(shí)現(xiàn)高效的緩存內(nèi)存利用率。

      Slab 分配好比是一個(gè)高效的“文具管理員”,它同時(shí)管理著許多盒子,每個(gè)盒子只裝一種特定尺寸的便簽紙,當(dāng)需要某種便簽紙的時(shí)候,它可以直接從對應(yīng)的盒子里取一張,用完之后再放回原來的盒子里。



      讓 AI 模型服務(wù)從“專線”走向“高速公路”

      從本次論文可知,這一成果要解決的痛點(diǎn)是:在 Hugging Face 等模型市場上擁有種類繁多的模型,這些模型的特性和用戶量各不相同。使用專用 GPU 實(shí)例來服務(wù)并發(fā)推理工作負(fù)載中那些偶發(fā)和不可預(yù)測的請求,會導(dǎo)致大量的資源浪費(fèi)。雖然現(xiàn)有的多模型服務(wù)解決方案采用 GPU 池化和無服務(wù)器計(jì)算來提高資源效率,但其有效性僅限于每個(gè) GPU,最多支持兩到三個(gè)模型,這對于充分利用 GPU 資源來說是遠(yuǎn)遠(yuǎn)不夠的。

      在 AI 模型爆炸式增長的今天,各大模型平臺同時(shí)運(yùn)行著成百上千個(gè)模型,傳統(tǒng)部署方式導(dǎo)致 GPU 資源利用率極低,每個(gè) GPU 往往只能服務(wù) 2-3 個(gè)模型,大量的算力被閑置。而本次研究團(tuán)隊(duì)通過 Aegaeon 實(shí)現(xiàn)的 token 級自動(dòng)擴(kuò)縮容技術(shù),通過將調(diào)度粒度細(xì)化到每個(gè)生成單元,在配合全棧優(yōu)化,讓單個(gè) GPU 可以智能地同時(shí)服務(wù)多個(gè)模型。

      這一技術(shù)不僅大幅提升了資源利用效率,更為未來“模型超市”的設(shè)想奠定了基礎(chǔ)。也許未來人們只需輕點(diǎn)鼠標(biāo),就能在云端瞬間調(diào)用最適合的 AI 模型,無需擔(dān)心背后的資源調(diào)度難度。

      參考資料:

      相關(guān)論文 https://dl.acm.org/doi/10.1145/3731569.3764815

      運(yùn)營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “大哥”承諾每月給1萬元養(yǎng)家費(fèi),要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      “大哥”承諾每月給1萬元養(yǎng)家費(fèi),要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      方圓
      2025-11-04 15:38:28
      伊能靜秦昊疑似離婚?!伊能靜回應(yīng):沒有離婚,只是各自過生活

      伊能靜秦昊疑似離婚?!伊能靜回應(yīng):沒有離婚,只是各自過生活

      鹿鹿156
      2025-09-07 12:03:43
      5號收評:A股上演大反攻!所有人都注意了,大盤后市或?qū)⑦@樣走!

      5號收評:A股上演大反攻!所有人都注意了,大盤后市或?qū)⑦@樣走!

      春江財(cái)富
      2025-11-05 15:22:11
      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      百態(tài)人間
      2025-11-04 15:58:52
      村里建廣場我贊助40萬,卻發(fā)現(xiàn)沒我名字我淡定離開,三天后村長懵了

      村里建廣場我贊助40萬,卻發(fā)現(xiàn)沒我名字我淡定離開,三天后村長懵了

      眼淚博物
      2025-08-22 18:21:23
      王家衛(wèi)說“我一定要搞金靖”,女方不敢回應(yīng),疑似不敢得罪資本

      王家衛(wèi)說“我一定要搞金靖”,女方不敢回應(yīng),疑似不敢得罪資本

      葉公子
      2025-11-02 23:11:52
      全紅嬋復(fù)出奪冠僅2天,三大惡心情況發(fā)生了,爸爸全文茂很有格局

      全紅嬋復(fù)出奪冠僅2天,三大惡心情況發(fā)生了,爸爸全文茂很有格局

      攬星河的筆記
      2025-11-05 14:39:00
      保時(shí)捷首個(gè)海外綜合研發(fā)中心于上海啟幕,快速精準(zhǔn)響應(yīng)中國需求

      保時(shí)捷首個(gè)海外綜合研發(fā)中心于上海啟幕,快速精準(zhǔn)響應(yīng)中國需求

      澎湃新聞
      2025-11-05 22:48:04
      男子突患尿毒癥住進(jìn)ICU急需用錢,妻子把自己的“五金”賣了6萬多元救丈夫的命

      男子突患尿毒癥住進(jìn)ICU急需用錢,妻子把自己的“五金”賣了6萬多元救丈夫的命

      觀威海
      2025-11-05 16:50:13
      足球報(bào):邵佳一確認(rèn)當(dāng)選中國國家隊(duì)新任主帥!

      足球報(bào):邵佳一確認(rèn)當(dāng)選中國國家隊(duì)新任主帥!

      懂球帝
      2025-11-05 17:12:14
      中俄之間的爭議領(lǐng)土,現(xiàn)在已劃分成了兩份,但是俄羅斯有了新想法

      中俄之間的爭議領(lǐng)土,現(xiàn)在已劃分成了兩份,但是俄羅斯有了新想法

      起喜電影
      2025-11-05 11:11:34
      中國國防部首次強(qiáng)硬表態(tài):解放軍將全力打擊“臺獨(dú)”及外部干預(yù)!

      中國國防部首次強(qiáng)硬表態(tài):解放軍將全力打擊“臺獨(dú)”及外部干預(yù)!

      Ck的蜜糖
      2025-11-05 00:42:42
      在西安跑網(wǎng)約車有多難?日均11單,三分之一司機(jī)連車租都湊不齊

      在西安跑網(wǎng)約車有多難?日均11單,三分之一司機(jī)連車租都湊不齊

      順風(fēng)車之聲
      2025-11-05 15:46:46
      人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      一家說
      2025-05-23 15:05:58
      亞冠精英東亞區(qū)最新積分榜:海港繼續(xù)墊底,成都跌至倒第二

      亞冠精英東亞區(qū)最新積分榜:海港繼續(xù)墊底,成都跌至倒第二

      懂球帝
      2025-11-04 23:53:17
      流感季提前來襲?醫(yī)生提醒:家里備好2類藥,關(guān)鍵時(shí)候用的上

      流感季提前來襲?醫(yī)生提醒:家里備好2類藥,關(guān)鍵時(shí)候用的上

      袁醫(yī)生課堂
      2025-11-03 18:29:05
      上繳國庫!與法院纏斗8年,“私募一哥”終于迎來110億元大清算

      上繳國庫!與法院纏斗8年,“私募一哥”終于迎來110億元大清算

      毒sir財(cái)經(jīng)
      2025-09-09 23:08:57
      亞洲第一個(gè)倒下的國家即將出現(xiàn),曾比肩中國,如今在走日本的老路

      亞洲第一個(gè)倒下的國家即將出現(xiàn),曾比肩中國,如今在走日本的老路

      阿器談史
      2025-11-05 20:57:46
      他從正軍職空降新疆軍區(qū)副政委,機(jī)關(guān):我們這里提不起一個(gè)政委?

      他從正軍職空降新疆軍區(qū)副政委,機(jī)關(guān):我們這里提不起一個(gè)政委?

      大運(yùn)河時(shí)空
      2025-11-04 21:40:03
      8連勝領(lǐng)跑!雷霆二當(dāng)家缺陣仍無敵,深度升級太可怕

      8連勝領(lǐng)跑!雷霆二當(dāng)家缺陣仍無敵,深度升級太可怕

      體壇周報(bào)
      2025-11-05 18:33:16
      2025-11-05 23:24:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨(dú)家合作
      15823文章數(shù) 514266關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財(cái)經(jīng)要聞

      事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      旅游
      游戲
      數(shù)碼

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      旅游要聞

      獨(dú)立懸崖之巔,俯瞰壯美金沙江,盡情領(lǐng)略其“如玉”的一面

      PS5上最貴游戲竟然是微軟的?頂配版賣到了200美元

      數(shù)碼要聞

      華為充電寶零召回!李小龍爆料內(nèi)部標(biāo)準(zhǔn),這底氣太足了

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人妻av无码系列一区二区三区| 亚洲一区二区三区播放| 成人一区二区不卡国产| 国产亚洲精品在av| 国产精品普通话国语对白露脸| 99久久久国产精品免费蜜臀| 高清性欧美暴力猛交| 精品一区精品二区制服| 国产毛1卡2卡3卡4卡免费观看| 久久久久久综合网天天| 国产精品深夜福利免费观看| 日本精品一区二区不卡| 国产福利片无码区在线观看| 亚洲天堂视频网| 精品国产中文字幕av| 武装少女在线观看高清完整版免费| 中文字幕亚洲制服在线看| 少妇人妻无码专区视频| 亚洲狠狠狠一区二区三区| 精品一区二区成人码动漫| 9丨精品国产高清自在线看| 欧美性猛交xxxx乱大交丰满| 日韩一区二区三区在线观院| 亚洲精品第一区二区三区| 国产AV无码专区亚洲AV漫画| 无遮高潮国产免费观看| 亚洲欧洲一区二区福利片| 国产精品护士| 亚洲开心婷婷中文字幕| 久久精品国产一区二区三| 国内精品大秀视频日韩精品| 国产成人女人在线观看| 国产色悠悠综合在线观看| 婷婷四虎东京热无码群交双飞视频 | 国产综合精品一区二区在线| 中文字幕亚洲高清在线一区| 亚洲色欲色欱WWW在线| 亚洲色欲在线播放一区二区三区| 成人永久性免费在线视频| 国产精品第一页一区二区| 日韩一区二区三区无码影院|