IT之家 11 月 5 日消息,微軟當地時間 11 月 4 日宣布,其 Azure ND GB300 v6 虛擬機在運行 Meta 的 Llama2 70B 模型時,推理速度達到了每秒 110 萬個 token。
![]()
IT之家注意到,微軟首席執行官薩提亞?納德拉(Satya Nadella)在 X 平臺(原 Twitter)上表示:“這一行業紀錄的實現,得益于我們與英偉達長期的聯合創新,以及我們在生產級規模運行人工智能方面的專業能力。”
![]()
Azure ND GB300 虛擬機由英偉達 Blackwell Ultra GPU 提供動力,具體基于 NVIDIA GB300 NVL72 系統。該系統在單個機架級配置中集成了 72 顆 NVIDIA Blackwell Ultra GPU 和 36 顆 NVIDIA Grace CPU。
該虛擬機專門針對推理工作負載進行了優化,GPU 內存容量提升了 50%,熱設計功耗(TDP)提高了 16%。
為驗證性能提升,微軟在單個 NVIDIA GB300 NVL72 域內的 18 個 ND GB300 v6 虛擬機上,分別運行了 MLPerf Inference v5.1 基準測試中的 Llama2 70B 模型(采用 FP4 精度),并使用 NVIDIA TensorRT-LLM 作為推理引擎。
微軟表示:“單個 NVL72 機架的 Azure ND GB300 v6 虛擬機實現了總計每秒 1,100,000 個 token 的推理吞吐量。這刷新了 AI 推理領域的新紀錄,超越了此前在同一 NVIDIA GB200 NVL72 機架上使用 ND GB200 v6 虛擬機所創下的每秒 865,000 個 token 的紀錄。”
由于該系統包含 72 顆 Blackwell Ultra GPU,其性能大致相當于每顆 GPU 約 15,200 個 token / 秒。
微軟已詳細公開了本次測試的完整數據,包括全部日志文件和詳盡的測試結果。該性能結果已由獨立的性能驗證與基準測試機構 Signal65 進行認證。
![]()
![]()
Signal65 實驗室副總裁拉斯?費洛斯(Russ Fellows)在其博客中指出:“這一里程碑不僅在于率先突破了每秒百萬 token 的大關,成為行業首次,更在于它是在一個專為滿足現代企業動態使用需求和數據治理要求而設計的平臺上實現的。”
Signal65 還補充道,與上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗僅增加了 17%。
“與 NVIDIA H100 世代相比,GB300 在機架級測試中實現了近 10 倍的推理性能提升,同時能效比提高了近 2.5 倍。”該公司進一步表示。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.