![]()
本文由半導體產業縱橫(ID:ICVIEWS)編譯自pc.watch
HBF模塊樣品預計于2026年下半年出貨。
超寬帶DRAM 模塊技術HBM(高帶寬內存)的衍生產品最近成為科技媒體的熱門話題。它們分別是移動 HBM和閃存 HBM。這次,筆者想簡單介紹一下Flash HBM或高帶寬閃存(HBF)。Flash HBM或HBF的概念非常簡單。我們先從傳統的技術HBM(高帶寬存儲器)說起。
HBM 由一個存儲器部分(DRAM 芯片稱為核心芯片)和位于底部的基礎芯片(邏輯芯片)組成,其中符合 HBM 標準的專用 DRAM 芯片使用硅通孔 (TSV)技術以三維方式堆疊。
DRAM 芯片(核心芯片)的數量取決于 HBM 的代數。例如,第五代HBM3E堆疊了 12 或 16 個核心芯片。核心芯片的顯存容量為 16Gbit 或 24Gbit。假設核心芯片的顯存容量為 16Gbit(2GB),堆疊了 12 個芯片,則一個 HBM 模塊的顯存容量為 24GB(192Gbit)。
八個HBM 模塊與 GPU 或 SoC 等尖端大規模邏輯芯片安裝在同一中介層上,總內存容量達 192GB。從 GPU 的角度來看,HBM 相當于內存層次結構中的主內存。此外,DRAM 芯片的內存容量將增加到 24Gbit(3GB),堆疊層數將增加到 16。假設安裝在中介層上的 HBM 模塊數量為 8 個,則 HBM 的總內存容量將為 384GB(48GB 模塊 x 8 個)。
現在,讓我們將核心芯片從DRAM 換成 NAND 閃存。假設 NAND 閃存芯片(核心芯片)的內存容量為 256Gbit,堆疊 16 個核心芯片,則每個模塊(HBF 模塊)的內存容量將達到 512GB。512/48 = 10.7,512/24 = 21.3,因此每個模塊的內存容量是 DRAM 核心芯片的 10 到 20 倍。這就是HBF(高帶寬閃存)。如果將 8 個 HBF 與 GPU 安裝在同一個中間板上,我們可以獲得 4,096GB 的大容量主內存。
![]()
Flash HBM(又稱HBF)的特性(左)和基本結構(右)。
HBF 由 NAND 閃存和閃存存儲供應商 Sandisk 發明。其 I/O 帶寬與 HBM DRAM 核心芯片大致相同,并聲稱能夠以與 HBM 相近的成本將內存容量提高 8 到 16 倍,同時顯著降低功耗。512GB 模塊的 I/O 數據速度高達 1.6TB/s,接近 HBM4 DRAM 核心芯片的速度。其外部尺寸(平面尺寸和高度)也與 HBM4 模塊大致相同。
![]()
堆疊DRAM 芯片的 HBM(左)和堆疊 NAND 閃存芯片的 HBF(右)與 GPU 組合后的總存儲容量。單個 HBM 的存儲容量為 24GB(16 個 12Gbit 芯片或 12 個 16Gbit 芯片),單個 HBF 的存儲容量為 512GB(16 個 256Gbit 芯片)。
HBM高成本限制了AI服務器性能的提升
Sandisk 聲稱,HBF 架構是通過收集幾家大型人工智能 (AI) 公司的信息而設計的。大型機器學習模型,例如大型語言模型 (LLM),具有極其龐大的參數數量。例如,該公司表示,存儲 1.8 萬億 (1.8T) 個具有 16 位權重的參數需要 3,600GB 的內存。
![]()
大規模語言模型(LLM) 的存儲需求示例(左)和相應的 HBF 示例(右)。
目前HBM模塊的最大容量為192GB至384GB,因此很難存儲3600GB的數據。雖然理論上是可行的,但這會將DRAM的成本推高到不切實際的水平。
近年來,DRAM 內存容量的單位成本下降幅度不如以往。我們預計價格每年僅會下降約 5%。盡管如此,自 2020 年代以來,大規模機器學習模型所需的內存容量一直在快速增長。雖然由于 HBM 容量的擴展,GPU 模塊產品的主內存容量正在增加,但與所需內存容量之間的差距卻在不斷擴大。
此外,2020年HBM成本占GPU模塊產品成本的近一半(48%),但預計到2025年將上升到三分之二以上(68%)。HBM是一種基于DRAM的高帶寬存儲器,這使得優先考慮低成本的邊緣AI服務器難以提高性能,即擴大主存儲器容量(HBM容量)。
![]()
左圖為DRAM每單位內存容量的單位成本,中圖為大規模語言模型(LLM)的參數數量,以及機器學習用GPU/TPU主內存容量的變化趨勢,右圖為HBM成本占GPU模塊(GPU、HBM、中間板等)總成本的比例變化趨勢。
NAND閃存高帶寬模塊的優缺點
因此,通過使用單位存儲容量成本低于DRAM 的 NAND 閃存作為高帶寬存儲模塊 (HBF),可以在抑制存儲成本上升的同時顯著擴展主存儲容量。然而,NAND 閃存存在讀寫性能不對稱的問題。讀取速度與 DRAM 一樣快,原則上沒有使用壽命(可以無限次讀取)。寫入速度比 DRAM 慢,并且可重寫的次數有限(最多 10,000 次)。
因此,NAND 閃存不適用于 AI 學習服務器,因為在模型調整過程中,參數重寫會頻繁發生。NAND 閃存適用于基于推理的服務器,因為這類服務器不經常發生參數重寫。SanDisk 聲稱,它適用于邊緣推理服務器,這類服務器優先考慮降低成本、功耗和安裝空間。
![]()
HBF的主要用于邊緣AI推理服務器。下方的紅色圖表似乎是HBF的核心芯片(NAND閃存)的布局(中央的粗豎條是TSV區域)。
![]()
標準3D NAND 閃存的內部結構(左)和用于高帶寬模塊 (HBF) 的 3D NAND 閃存的內部結構(右)。兩者均為示意圖。對于 HBF,存儲單元陣列被劃分為多個塊,從而顯著增加 I/O 數量至 1,024 個,并提高了 I/O 帶寬。
HBF的推理性能與無限大容量的HBM幾乎相同
如果將HBM DRAM核心芯片替換為HBF NAND閃存核心芯片,推理性能會下降多少?SanDisk以LLMLlama 3.1(4050億個參數)為例,比較了推理過程的幾個步驟,發現HBF相比HBM(假設內存容量無限大)的性能下降幅度小于2.2%(GPU亦然)。
HBF 和 GPU 組合的推理性能與 HBM 相當接近,但實際上 HBM 的顯存容量不可能無限大,因此性能差距有望進一步縮小。
![]()
這是模擬比較Llama 3.1(4050 億個參數)與 HBM(假設內存容量無限大)和 HBF 處理性能的結果。從左到右,這些過程分別為Attn QKV Projection、Attn Output Projection、FFN Up-Projection、FFN Down-Projection、Final Linear和LLM Decode Pass 的平均值。縱軸表示權重讀取速度。
SK海力士參與開發
SK海力士將與Sandisk合作開發HBF并制定其規范。SK海力士是主要的DRAM和NAND閃存制造商,也是最大的HBM供應商。TSV技術對HBF至關重要。Sandisk目前尚無TSV技術量產的記錄,因此SK海力士是理想的合作伙伴。SK海力士擁有HBM(也采用TSV技術)的量產記錄,并且對NAND閃存非常了解。
HBF模塊樣品預計于2026年下半年出貨,搭載HBF模塊的AI推理服務器預計將于2027年初問世。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.