<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型優秀大腦齊聚硬核開源聚會,SGLang社區舉辦國內首次Meetup

      0
      分享至

      機器之心報道

      編輯:冷貓

      遠在大洋彼岸的 Pytorch Conference 2025 全球開發者峰會已經走向尾聲。

      作為全世界最具影響力的深度學習開發者社區的重大活動之一,Pytorch Conference 最近收獲了相當的關注度,展現了相當的社區活力。



      SGLang 同樣參加了Pytorch Conference 2025,核心成員Yineng Zhang 在大會做了相關分享。

      而在同期的10月25日,SGLang 聯合美團,亞馬遜云科技在北京開啟了官方社區舉辦的國內首場Meetup見面會





      向讀者們簡單介紹下 SGLang。它起源于 RadixAttention,是由非營利組織LMSYS孵化的開源高性能的大語言模型和視覺語言模型推理引擎。它在各種環境中提供低延遲和高吞吐量的推理,從單個 GPU 到大型分布式集群。

      SGLang 的核心特性包括:

      • 快速后端 Runtime:提供高效服務,支持 RadixAttention 前綴緩存、零開銷 CPU 調度器、預填充 - 解碼解耦、推測性解碼、連續批處理、分頁注意力、張量 / 流水線 / 專家 / 數據并行、結構化輸出、分塊預填充、量化和多 LoRA 批處理。
      • 廣泛模型支持:支持多種生成模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)和獎勵模型(Skywork),并易于擴展以集成新模型。兼容大多數 Hugging Face 模型和 OpenAI API。
      • 廣泛的硬件支持:可在 NVIDIA GPU、AMD GPU、Intel Xeon CPU、Google TPUs、華為昇騰 NPU 等硬件上運行。
      • 靈活的前端語言:為 LLM 應用程序提供直觀的編程界面,支持鏈式生成調用、高級提示、控制流、多模態輸入、并行處理和外部交互。
      • 活躍的社區:SGLang 是開源項目,并得到充滿活力的社區支持,在行業內得到廣泛采用,全球范圍內為超過 30 萬塊 GPU 提供支持。

      這次見面會雖說是首次舉行,但在會場中熙熙攘攘著 SGLang 的社區貢獻者,開發者和學者,不乏來自各個知名公司、學校或組織的成員,進行激烈的思維碰撞,充分顯現出 SGLang 在國內旺盛的社區活力和發展潛能。



      四小時的 Meetup 時間有些緊張,十余位大模型領域的大咖和核心開發者們分享了各自領域的見解,在 SGLang 社區的最新貢獻,未來的發展方向,以及采用 SGLang 在不同業務中的應用場景。

      可以說是一場高密度的硬核的開源社區的思想碰撞。

      無限進步的社區

      見面會的開場由硅基流動 CEO 袁進輝進行歡迎致辭。

      袁進輝老師真摯的分享了他自己的職業經歷,回顧 AI Infra 工程師的職業發展,并且展望未來的 AI 時代機遇,AI infra 大模型推理仍然有很好的機會。



      袁進輝老師提到,做算法和做 Infra 有顯著的不同:

      • Algorithm 更依賴創造能力,更依賴靈感,從無到有;而 Infra 更依賴歸納和抽象能力。
      • Infra 對延遲滿足感要求高,聰明人不一定干得了,更需要團隊協作。
      • Infra 有時間累積效應,知道 ldea 也不一定能復現,而 Algorithm 不易形成商業壁壘,窗戶紙一旦捅破,天下皆知。

      袁進輝老師結合自己的創業經歷和深刻的思考,對于創業者,從業者的未來方向產生一些啟發。

      本次 Meetup 活動的上半場主要集中在 SGLang 推理架構的核心開發者的技術分享上。

      SGLang 核心開發者尹良升,介紹了近期 SGLang 的技術進化的里程碑和未來路線規劃。



      尹良升老師著眼于架構技術進步,深度講解了 KV Cache 分層緩存,Piecewise CUDA Graph,Spec Decoding 的重疊調度等 SGLang 的最新技術進展,能夠實現不同程度的效率和兼容性優化。

      在 Roadmap 部分,尹老師主要介紹了對廣泛企業的支持,對各類軟硬件的拓展兼容和穩定性。

      隨后,清華大學副教授章明星,以 Mooncake/KTransformers 與 SGLang 近期的合作進展和 2025H2 路標為主題進行了分享。



      章明星老師詳細講解了集「快速傳輸」、「大量存儲」和「易用」結合的高性能分布式 KV Cache 存儲解決方案 Mooncake 與 SGLang 的 PD 分離技術相結合的工作,取得了良好的性能效果。

      章老師介紹,與 SGLang 相整合的 HiCache 技術,通過多層次緩存管理(GPU、CPU、外部存儲)與層頁混合內存布局,結合重疊預取策略,大幅提升了 SGLang 在多 GPU 場景下的內存利用率與推理吞吐性能。

      SGL 與 LLama-Factory 正在通過集成 KTransformers 實現從 CPU/GPU 混合推理 到 LoRA 微調 的全流程開源生態擴展,使大模型(如 DeepSeek、Kimi K2)在本地和多 GPU 環境下高效運行與微調成為可能。

      該部分工作與趨境科技合作進行。

      同時,在未來 Mooncake,KTransformers 也會有更多開源整合項目。

      亞馬遜云科技 EC2 產品解決方案架構師肖萍,以 SGLang 在純 CPU 環境下的性能與優化研究為題做第三場分享。



      肖萍老師講道,SGLang 在 CPU 上運行適用于小型語言模型服務、傳統機器學習任務,以及低成本的 MoE 模型推理;結合了 SGLang 在 CPU 環境下運行的挑戰,通過優化調度、緩存復用、量化策略和底層指令級優化來提升性能、降低成本的應對方法。

      除此以外,還特別提及了在單個模型,例如 DeepSeek 上的 CPU 優化方法。

      上半場的最后,SGLang 量化負責人張鵬,介紹了 SGLang 的量化方案和未來路線。



      張鵬老師詳細講解了 SGLang 的量化方案、量化模塊和量化粒度相關的技術細節,介紹了 SGLang 目前支持的廣泛量化類型,保證量化精度的三類技術方法。

      同時,張鵬老師介紹了 SGLang 量化部分近期的工作:實現了 FP4 量化支持,W4AFP8 達成了實現;DeepSeekR1 和 V3 更容易單機部署;多硬件支持,并進行了代碼重構工作。

      未來的量化路線圖聚焦于擴展應用范圍、提升靈活性,并引入新型數據格式以進一步優化模型性能與效率。

      受限于本文篇幅,我們不對技術細節進行過多的介紹,感興趣的讀者請參閱 SGL Project 相關頁面:

      • https://github.com/sgl-project
      • https://lmsys.org/blog/

      廣泛應用實踐

      見面會的第二部分主要集中在應用和實踐方面,展現了 SGLang 在不同場景下的應用現狀。

      下半場的第一個分享來自百度搜索架構部負責人百度搜索楊文博,主題是 Ernie 4.5 適配與百度搜索的 SGLang 實踐。



      Ernie 4.5 即文心 4.5 系列開源模型,楊文博老師詳細介紹了百度內部對于 Ernie 4.5 模型大規模部署的系統優化方案的實踐:在架構、調度、計算和硬件兼容性上全面提升,實現高性能、跨平臺的大規模推理部署。

      此外,楊文博老師提到,在百度搜索場景中采用 SGLang 開始于 DeepSeek V3 的分布式推理復現,隨后廣泛應用于 LLM 推理、蒸餾和 RL 訓練。搜索架構團隊對 SGLang 做了一些例如特定模型優化、小卡優化和調度優化的技術工作。

      關于文心 4.5 模型在 SGLang 的適配細節,請參閱:

      • github.com/sgl-project/sglang/pull/7657

      在搜索場景上,騰訊專家工程師曹皓緊接著分享了 SGLang 在微信搜一搜的應用實踐。



      在微信搜一搜業務體系中,LLM 的應用包括:深度思考,快速回答,視頻號前鏈,深度研究四個主要場景。

      曹皓老師提到,搜索業務中的目標是在有限 GPU 下實現高吞吐量與低延遲推理,確保搜索與問答類場景具備「首字快、生成流暢」的用戶體驗,關注首字速度 TTFT 和生成速度 TPOT 的指標。而 SGL 昂為微信搜一搜提供了高性能的 LLM 推理支持。

      曹皓老師詳細的講解了針對生成流暢度,降低 PD 分離的影響;長輸入場景下 TTFT 的優化;長耗時流量負載均衡以及 PD 分離規模化部署的相關技術細節和實現流程。

      在行業應用場景中,大模型在 NPU 上的適配運行是非常重要的一環。華為大模型優化算法專家秦正達分享了 DeepSeek V3.2 在 NPU 上的適配和優化實踐。



      在 DeepSeek V3.2 的部署方案上,通過對比 MHA + 稀疏掩碼;MHA + 稀疏注意力以及 MQA + 稀疏注意力優化,最終選擇了 MQA + 稀疏注意力的部署方案,實現了計算量、顯存訪問與執行效率的平衡,在長序列推理中顯著提升性能與資源利用率。

      同時,秦正達老師針對 PreFill 和 Decode 的并行策略進行分析,講解了在 NPU 上的融合算子和算子優化的相關技術細節。未來規劃聚焦在三大方向:低比特量化、KV 緩存下沉與 MegaKernel 并行優化,目標是通過軟硬件協同進一步提升長序列推理性能與系統吞吐效率。

      相關開源鏈接,請參閱:

      • CANN 開源倉庫:https://gitcode.com/cann
      • CANN-Recipes:https://gitcode.com/cann/cann-recipes-infer

      SGL 即將在 Omni-Infer v0.6.0 版本中正式支持,通過 NPU 硬件親和與極致性能優化,實現高效推理框架:

      • https://gitee.com/omni-ai/omniinfer

      隨后,Slime Project Leader 朱子霖,以及螞蟻 AQ 團隊成員李冀,有關 slime 的開發方向和應用做了分享。



      朱子霖老師介紹了 slime 從 0 到 1 的發展,經歷了從靈活高效的訓練架構設計,到構建公司與開源社區共建共贏的訓練生態,實現了技術與社區的雙向循環成長。

      slime 的目標是構建符合初心的,世界最好的后訓練框架。站在 Pytorch 巨人的肩膀上,Pytorch 是深度學習框架,在 GPU 上跑得快,還能反向,那么 slime 的目標就是:是 RL Scaling 框架,能訓的快并且支持各種數據生成邏輯。



      李冀老師介紹了 slime 落地 AQ 醫療的應用范式,訓練流程,以及多智能體訓練的性能優勢。

      slime 在 AQ 醫療場景中實現了多輪交互與多智能體協同訓練的強化學習系統,使醫生與患者模型通過對話共同提升表現,實現智能醫療問答的真實落地。

      slime和AQ相關開源鏈接,請參閱:

      • https://github.com/THUDM/slime
      • https://github.com/AQ-MedAI/MrlX

      最后登場的是本次 Meetup 活動主理人,SGLang 核心開發者王超,分享了 Specforge 框架的最新進展。



      Specforge 是由 SGLang 團隊推出的開源投機采樣模型訓練框架,旨在加速大語言模型推理,目前已應用于美團、英偉達、Google、螞蟻等企業的大模型優化。Specforge 和 SGL 完全結合,開箱即用。Specforge 的核心特性,包括提供了對 TTT 的原生支持,支持 Eagle 3;在線與離線的訓練管線等等。

      王超老師介紹了 Specforge 的近期亮點,包括達到了 SOTA GPT-OSS 性能;采用 Flex Attention 實現了高達 10-20 倍顯存節省;支持 VLM,成為業界第一個對 VLM 做投機采樣的工作,以及對 LoRA 的支持。

      在未來,Specforge 開源計劃將聚焦于訓練加速、Eagle3 模型生態擴展,以及更先進的推測解碼算法的研發,持續提升模型推理效率與生態兼容性。

      總結

      熱情的社區成員,令人興奮的工作,引人期待的 Roadmap,廣泛的應用,正是一個良性循環的,高活力的開源社區應有的模樣。

      這是國內第一次 SGLang 社區的 Meetup 活動,卻已足夠令人感到著迷。希望未來,社區能夠更加枝繁葉茂。

      SGL 打滿!

      https://github.com/sgl-project/sglang

      https://x.com/PyTorch/status/1981777035207868492

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      面試通過,國足新帥或敲定,45歲,效力豪門,年薪新低,鄭智好友

      面試通過,國足新帥或敲定,45歲,效力豪門,年薪新低,鄭智好友

      體育有點水
      2025-11-05 12:25:58
      邵佳一,國足新帥!

      邵佳一,國足新帥!

      新京報
      2025-11-05 17:19:38
      只喂餅姆巴佩引爭議?皇馬新核被傳奇警告:還不夠

      只喂餅姆巴佩引爭議?皇馬新核被傳奇警告:還不夠

      運動全視界
      2025-11-04 16:30:35
      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      每日經濟新聞
      2025-11-02 23:32:08
      中方定罪后,荷蘭方面終于承認,這件事怎么解決,還得等中國點頭

      中方定罪后,荷蘭方面終于承認,這件事怎么解決,還得等中國點頭

      桑啟紅原
      2025-11-05 15:08:51
      又一個冬天要到了,烏克蘭對俄羅斯打法開始變了

      又一個冬天要到了,烏克蘭對俄羅斯打法開始變了

      軍機圖
      2025-11-05 16:47:46
      新疆多地遭遇下半年最強降雪,烏魯木齊雪深或達25厘米,賽里木湖變身“冰雪王國”,氣象部門發布提醒

      新疆多地遭遇下半年最強降雪,烏魯木齊雪深或達25厘米,賽里木湖變身“冰雪王國”,氣象部門發布提醒

      極目新聞
      2025-11-05 14:26:46
      特朗普已經不裝了,直接對臺灣“改口”,中國統一進入高速車道?

      特朗普已經不裝了,直接對臺灣“改口”,中國統一進入高速車道?

      李博世財經
      2025-11-04 17:07:08
      1952年,一農民找到廣州市委書記:媽,我是您失散23年的兒子

      1952年,一農民找到廣州市委書記:媽,我是您失散23年的兒子

      知否否知
      2024-11-03 12:04:09
      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      掘金日本房產
      2025-11-04 19:28:57
      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      李喜林籃球絕殺
      2025-11-04 23:03:26
      鄭麗文再拋重磅承諾,盧秀燕不裝了,吳敦義出手,王鴻薇苦口婆心

      鄭麗文再拋重磅承諾,盧秀燕不裝了,吳敦義出手,王鴻薇苦口婆心

      墨蘭史書
      2025-11-05 12:05:03
      臺灣回歸還有一種新方案,國民黨若同意,解放軍或無需動武

      臺灣回歸還有一種新方案,國民黨若同意,解放軍或無需動武

      瞻史
      2025-10-31 02:20:52
      中國希望看到的一幕將發生,特朗普緊急發文,這一次他真的輸不起

      中國希望看到的一幕將發生,特朗普緊急發文,這一次他真的輸不起

      現代小青青慕慕
      2025-11-05 09:05:21
      全球第一,固態電池巨頭,拿下120億訂單!

      全球第一,固態電池巨頭,拿下120億訂單!

      飛鯨投研
      2025-11-05 09:08:06
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      鐵錘簡科
      2025-11-05 15:19:29
      快船誕生最毒瘤兩個點!祖巴茨攻守全面下滑,保羅習慣性帶崩球隊

      快船誕生最毒瘤兩個點!祖巴茨攻守全面下滑,保羅習慣性帶崩球隊

      籃球資訊達人
      2025-11-05 16:21:22
      中投命中率第1!湖人化身中投豪強:四大高手崛起,沖冠更有戲?

      中投命中率第1!湖人化身中投豪強:四大高手崛起,沖冠更有戲?

      李喜林籃球絕殺
      2025-11-05 17:11:34
      除夕夜,爸爸訂了7人包間,誰知爺爺竟叫來了叔叔一家

      除夕夜,爸爸訂了7人包間,誰知爺爺竟叫來了叔叔一家

      小秋情感說
      2025-11-05 13:43:40
      對岸統一的風向:賴清德由獨轉統,或能成就統一功績~

      對岸統一的風向:賴清德由獨轉統,或能成就統一功績~

      蛙斯基娛樂中
      2025-11-05 05:53:03
      2025-11-05 17:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      游戲
      數碼
      藝術
      親子
      軍事航空

      知名游戲新作Steam國區好評率僅4%!玩家噴爆了

      數碼要聞

      售價更親民!AMD銳龍AI Max+ 388現身:旗艦同款Radeon 8060S

      藝術要聞

      院士親自下場“把關”!溫州園博園山水中國館,預計年底建成!

      親子要聞

      重度自閉癥孩子幸不幸福,要看帶養人費不費勁

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区天堂中文最新版在线| 桃花岛亚洲成在人线AV| 五月国产综合视频在线观看| 激情内射亚州一区二区三区爱妻| 少妇办公室好紧好爽再浪一点| 亚洲精品色一区二区三区| 国产成人综合在线观看不卡 | 日韩有码中文在线观看| 亚洲午夜理论无码电影| 扒开双腿疯狂进出爽爽爽| 国产成人精品视频网站| 四虎成人精品无码| 天堂网在线.www天堂在线资源| 国产精品普通话国语对白露脸| 99riav国产精品视频| 国产日本一区二区三区久久| 中文幕无线码中文字夫妻| 99热成人精品热久久66| 精品视频福利| 免费无码av片在线观看网站| 少妇无码AV无码专区| 少妇人妻av毛片在线看| 国产在线超清日本一本| 精品不卡一区二区三区| 国产在线一区二区不卡| 玩弄放荡人妻少妇系列 | 一区二区三区鲁丝不卡| 99久久er热在这里只有精品99| 日韩伦理片一区二区三区| 六盘水市| 中文字幕网红自拍偷拍视频| 性xxxx视频播放免费| 精品久久久久久无码人妻蜜桃| 女同AV在线播放| 国产精品久久久久鬼色| 久久精品夜色噜噜亚洲av| 天海翼激烈高潮到腰振不止| 久久久久蜜桃精品成人片公司 | 激情综合五月丁香亚洲| 国产亚洲精品超碰| 亚洲欧美日韩久久一区二区|