美元换人民币  当前汇率7.20

为严苛型运算选择高频宽存储器

* 来源 : * 作者 : admin * 发表时间 : 2024-06-04
“高频宽存储器”(High Bandwidth Memory,HBM)尽管在性能方面无与伦比,但对于许多应用来说价格昂贵又耗电。
生成式人工智能(AI)应用的爆发式成长,刺激了对AI服务器和处理器的需求飙升。在这些处理器中——包括AMD和Nvidia的运算GPU,英特尔(Intel)的Gaudi或AWS的Inferentia、Trainium和FPGA等专用处理器,大多数都采用高频宽存储器(HBM),因为它提供了当今最高的存储器频宽,美光(Micron)、三星(Samsung)和SK海力士(SK Hynix)等存储器制造商均计划在2023年提高一倍的高频宽存储器产量,并在2024年进一步增加。该计划也为存储器产业带来了挑战。 
但目前有着许多的AI处理器——特别是那些为执行推论工作负载而设计的处理器,以及高效能运算(HPC)处理器,都要用到GDDR6/GDDR6X甚至LPDDR5/LPDDR5X存储器。不过,同样运行AI工作负载(针对特定指令最佳化)的通用CPU,则主要采用商用存储器。这就是为什么在未来几年,人们将会看到MCRDIMM和MRDIMM存储器模组显著提高其容量和频宽。不过,HBM仍将是频宽之王。
考虑到现代存储器类型的性能规范和功能,HBM在频宽密集型应用中如此受欢迎的原因显而易见。在每个堆叠约1.2TB/s的情况下,没有任何传统存储器能够在频宽方面胜过SK海力士的新型HBM3E。但频宽是有代价的,在容量和成本方面也有一些限制。
致力于制定AI硬体产业基准的AI工程联盟MLCommons常务董事David Kanter表示,“由于间距小,HBM不仅具有优越的频宽,而且还有卓越的低功耗性能。不过其主要缺点是需要先进封装,从而限制了供应,也增加了成本。尽管如此,HBM几乎肯定会一直占据一席之地。”
正是由于HBM存在的这些缺点,让DDR、GDDR和LPDDR等存储器类型也被选择导入许多频宽密集型应用,包括AI、HPC、绘图和工作站。美光表示,目前正迅速地投入开发这些容量和频宽最佳化的存储器,因此,AI硬体的开发工程师对其有着明确的需求。
美光运算和网路业务部资深经理Krishna Yalamanchi表示,“HBM是一项非常有前景的技术,其市场在未来有很大的成长潜力。目前,其应用领域包括AI、HPC和其他需要高频宽、高密度和低功耗的应用。随着越来越多的处理器和平台采用它,市场预计将会迅速成长。”
同时,Rambus则表示,市场显然需要频宽和容量。该公司开发、授权并协助实现存储器控制器相关的各种应用,包括用于AI工作负载的处理器。
Rambus负责产品行销、介面IP的副总裁Joe Salvador表示,“我们将持续在AI市场上看到的是,资料集越来越大。“性能需求、存储器频宽和存储器容量都正呈指数级增加。有趣的是,自2012年以来,训练模型以每年10倍的速度成长,而且似乎没有放缓的迹象。”
特别有趣的是,那些需要HBM的公司,往往会在一夜之间采用该标准的最新反覆运算。Rambus表示,如今,HBM2E几乎尚未开始用于设计,而新的反覆运算却已登场。
“当今几乎还没看到什么新的HBM2或HBM2E设计,市场风口就已经发生了转变。Salvador说,大多数新芯片设计通常使用HBM3,或者是全新的HBM3E,因此,Rambus的存储器控制器的资料传输速率高达9.6GT/s。Rambus表示,整合具有9.6GT/s功能的HBM3E存储器控制器,其功耗不应增加太多,不过可以肯定的是,HBM3E PHY和9.6GT/s HBM3E堆叠的功耗更高于一般的HBM3 PHY和HBM3堆叠。

HBM面对量产挑战
Gartner预计,2027年HBM的需求,预计将激增至惊人的9.72亿GB (2022年为1.23亿GB),这意味着HBM位元需求占DRAM总量,将从2022年的0.5%增加至2027年约1.6%。这一迅速增加归因于传统AI和生成式AI应用对HBM的需求不断增加。
Gartner分析师认为,HBM的收益将从2022年的11亿美元成长到2027年约52亿美元,尽管其价格将比2022年的水准下降40%。另外,由于技术进步和存储器制造商的投入不断增加,HBM堆叠的密度也随之提升,将从2022年的16GB增加到2027年的48GB。同时,美光似乎更为乐观,预计2026年左右就会推出64GB HBMNext (HBM4)堆叠。HBM3和HBM4规格允许建构16-Hi堆叠,因此可利用16个32Gb元件来建构64Gb HBM模组,但这将要求存储器制造商减少存储器IC的间距,包括使用新的生产技术。
鉴于Nvidia拥有运算GPU领域的最大市场占有率,该公司很可能是该产业最大的HBM存储器消费者,并将持续一段时间。该公司的A30配备了24GB HBM2,A100配备了80GB HBM2E,H100具有80GB的可用HBM2E (PCIe)或HBM3 (SXM),H200提供了141GB HBM3E,而GH200是第一个具有96GB HBM3或141GB HBM3E的产品。
但是,生产HBM KGSD (已知良好晶粒堆叠)基本上比生产传统DRAM芯片更复杂。首先,用于HBM的DRAM元件与用于商用存储器(例如DDR4、DDR5)的典型DRAM IC完全不同。存储器制造商必须先生产8或12个DRAM元件,通过测试后再将其封装在通过前期测试的高速逻辑层,然后再进行完整封装测试。这一过程不但成本高,耗时又长。
HBM堆叠基于3D堆叠DRAM架构,该架构利用矽穿孔(TSV)垂直连接多个芯片,这与商用DRAM有着根本的不同。Yalamanchi说:“这种采用TSV的堆叠架构支援非常宽的存储器介面(1024位元)、高达36GB的存储器容量以及超过1TB/s的高频宽操作。为了支援这种平行的位宽介面,DRAM单元和资料结构都经过了彻底重新设计。”
拥有多项存储器专利的DataSecure技术长兼布林实验室(Boolean Labs)技术长/首席科学家Michael Schuette认为,尽管HBM架构十分复杂,但由于生产方法是众所周知的,整体不应该代价高昂。
Schuette说:“这些并不是一个可怕的成本叠加器,其工具和方法是从3D NAND时建立的,可以为连接做矽穿孔,而所需要的只是从3D NAND移植到现有的TSV方法上。”
但是用于HBM的DRAM元件必须具有宽介面,它们在实体上比一般DRAM IC更大,因而成本也更高。因此,美光执行长Sanjay Mehrotra表示,为了满足AI服务器的需求,HBM存储器产量的增加将影响所有DRAM类型的供应。
Mehrotra在最近的一次电话会议上表示,“HBM的生产将成为产业位元供应成长的逆风。HBM3E芯片的尺寸大约是等效容量DDR5的两倍。HBM产品包括逻辑介面芯片,且其封装堆叠基本上也更复杂,从而影响生产良率。因此,HBM3和3E的需求将吸收产业中相当比例的芯片供应。HBM3和3E产量的增加,将降低整个产业DRAM位元供应的整体成长;随着更多产能被转移到HBM上,对非HBM产品的供应产生了特定的影响。美光正经历一次类似的影响——其所规划的HBM3E量产对于提升我们位元供应能力带来影响。”
HBM3E本质上是HBM3的大幅减速版,因此,尽管DRAM制造商必须确保可观的产量,然后调整生产方法,以更有效地建构8-Hi 24GB和12-Hi 36GB HBM3E KGSD,但新型存储器并不会代表HBM生产的重大转变。相形之下,它的“后继版本”却可能会。

HBM4:迈向更宽与3D道路
HBM4将扩展存储器堆叠介面至2048位元,这将是自八年前导入这种存储器类型以来HBM规范的最重大变化之一。将I/O接脚数量增加两倍,同时保持相似的实体占位面积,这无论对存储器厂商、SoC开发人员、代工厂,还是委外组装和测试(OSAT)公司来说,都极具挑战性。三星表示,HBM4将需要从目前用于HBM的微凸块键合(这已经很难且昂贵)过渡到直接铜对铜键合,这是一项最先进的技术,将在未来几年用于整合多个小芯片(chiplet)的设计。
Schuette说:“如果看看即将推出的HBM4规格和2,048位元宽介面,接脚数量将达到约5,500个,这已经相当于大多数服务器CPU或GPU的接脚数量了。如果试图以小的占位面积来设计布线,最终的中介层/重分布层(RDL)将多达20层,如果选择更大的占位面积和更少分层,最终将超过容许的最大迹线长度。”
SK海力士甚至设想HBM4必须在SoC上进行3D整合,以达到最大效率,但这将进一步增加成本。Kanter说:“在未来几年,我们可能会透过更紧密的整合(例如3D堆叠)实现更高的性能和效率,但这可能会更昂贵。”
Schuette认为,由于HBM4的接脚数极高,如果采用中介层和RDL的传统方法,将具有2,048位元介面的HBM4堆叠连接到主处理器可能会非常困难。Schuette解释道,“哪怕是最微小的翘曲,都可能导致连接不良。如果只是一个接地接脚,设计师可能不会注意到,但如果是一个讯号接脚,那就完蛋了!”
但3D封装技术将需要更复杂的设备,因此很可能(至少在初期)只有代工厂才有能力在2025~2026年间实现HBM4整合。
据报导,为了保持DRAM单元尺寸的微缩以及控制存储器功耗,三星打算在HBM4中使用FinFET电晶体。透过导入FinFET,有望最佳化HBM元件的性能、功率和面积扩展。然而,这项技术对成本的影响仍不确定。此外,三星何时能在标准DRAM IC中实现FinFET也尚未确定。目前,三星只确认了FinFET将用于HBM4。
Salvador说:“HBM4仍然会有成本问题,而且也有实施上的顾虑,使得HBM3/HBM3E的使用时期可能延长,特别是在一些成本更敏感之处。”
Yalamanchi说:“假设人们会想采用最快速的HBM版本并不一定准确 。对于HBM来说,许多因素都可能影响存储器技术的选择,如成本、供应链限制、平台就绪情况以及性能要求等。”
由于架构和封装成本的根本不同,以服务于成长中的利基市场而言,HBM仍将是昂贵的存储器类型。Schuette某方面赞同这一观点,并指出,尽管HBM能够有效服务于其目标市场,但很难因应更广泛的市场。Schuette说:“HBM似乎仍然是一种利基型的产品,而且很可能一直如此。”。
那么,HBM是否可在成本上与商用或专用存储器竞争?
Kanter回答说:“这也并非不可能,但一定会是一段很长的时间。不过,HBM要想具有成本竞争力,就需要大幅降低封装成本,或是GDDR的成本大幅提高。抑或是出现一个根本性的技术转变,例如,GDDR从高速铜讯号转换到光学讯号。不过,我不确定到那时是否还是GDDR。”

LPDDR:低功耗的选择
虽然HBM在性能方面无与伦比,但对于许多应用来说,它既昂贵又耗电,因此有些开发人员为高频宽要求的应用选择美光的LPDDR5X,因为这种类型的存储器提供了价格、性能与功耗之间的平衡。
例如,在LPDDR成为趋势之前,苹果(Apple)的个人电脑(PC)多年来一直采用LPDDR存储器。目前,Apple已完善其基于LPDDR5的存储器子系统,在性能方面是其他竞争解决方案所无法比拟的。Apple的高阶桌上型电脑(内建M2 Ultra SoC的Mac Studio和Mac Pro)采用两个512位元存储器介面,频宽达到惊人的800GB/s。而AMD最新的Ryzen Threadipper Pro,配置12通道DDR5-4800存储器子系统,峰值频宽达到约460.8GB/s。
如同Apple在所有的装置中采用LPDDR5一样,其实还有一些额外的好处,例如可在不同的SoC中重复利用LPDDR 5控制器IP和PHY,再就是大量采购可得到更好的价格。Apple当然不是唯一一家将LPDDR存储器用于频宽密集型处理器,Tenstorrent也将这种存储器用于其Grayshell AI处理器。
Kanter说:“如今,它们似乎服务于不同的利基市场,而且存在着广泛的差异趋势。HBM针对资料中心,LPDDR则更适于边缘。实际上,在针对类似的市场时,设计师通常采用不同类型的存储器,例如在资料中心的推论设计中,HBM、GDDR、一般DDR与LPDDR皆会用到。”
LPDDR存储器芯片的明显优势之一,是其相对宽的介面和相当快的操作。典型的LPDDR5和LPDDR5X/LPDDR6T IC具有32或64位元介面,支援高达9.6GT/s的资料传输速率,这比大规模生产的DDR5所支援的资料速率更宽也更快得多。此外,行动存储器自然比用户端PC和服务器的主流DDR存储器功耗低。
对于利用Tenstorrent开发的应用,不但存储器频宽很关键,功耗也至关重要,这就是为什么LPDDR的使用范围近来远远超出智能型手机和用户端PC。

GDDR:性价比之间的平衡
Tenstorrent为业界带来了另一种存储器类型,将用于即将推出的Wormhole和Blackhole AI处理器。同时,Nvidia将GDDR6和GDDR6X用于各种AI推论的GPU。
Yalamanchi说:“GDDR存储器用于AI和其他应用,其实对于AI推论应用也是个好选择,因为相较于DDR ,GDDR能够提供更高频宽与更低延迟。此外,GDDR成本低,技术上也没有HBM那么复杂。例如,GDDR6用于Nvidia Tesla T4 GPU,以实现AI推论,而L40S则用于AI推论和绘图应用。”
GDDR6的功耗通常比LPDDR更高,而最新的GDDR6/GDDR6X芯片具有32位元介面(比LPDDR5X窄),但GDDR6/GDDR6X/GDDR7存储器执行速度更快得多。
事实上,GDDR7的执行速度可高达36GT/s,对于如此高的资料速率,其存储器子系统将会比采用LPDDR5X的系统更加迅速,值得注意的是,我们谈论的是潜在的宽存储器介面,如384或512位元。即使在32GT/s的资料传输速率下,384位元LPDDR7存储器子系统的峰值频宽也可设置到1536TB/s,这远高于512位元LPDDR5X-9600存储器子系统(614.4GB/s)。不过,我们可以猜测LPDDR7存储器子系统的功耗将比采用LPDDR5X的存储器子系统更高,但考虑到其性能,这也是合理的权衡。

MCR-DIMM与MR-DIMM
如果没提到MCR-DIMM和MR-DIMM,那么关于高性能存储器解决方案的报导就不算完整。这是一种主要为服务器设计的新型双列DDR5存储器模组,目前正在开发中。该技术的理念是,在每个CPU核心数持续增加的情况下,进一步提高存储器模组的效率,并将其峰值频宽提高到DDR5支援的速度之上。
针对较高层级的多工器组合列DIMM (MCR-DIMM),则是一种配备多工缓冲器的双列缓冲存储器模组。该缓冲器可以同时从两个列中检索128位元组的资料,并以高达约8,800MT/s的速率(基于美光发布的蓝图)配合存储器控制器运作,这比原始DDR5规格中指定的最高资料速率还高出400MT/s。这些模组除了提高性能,还简化了高容量双列模组结构。MCR-DIMM由英特尔和SK海力士支持,并计划用于英特尔的第六代Xeon可扩展Granite Rapids平台,而美光则计划在2025年初推出MCR DIMM。
多列缓冲DIMM (MR DIMM)在概念上与MCR-DIMM非常相似,也是具有多工缓冲器的双列模组,缓冲器同时与两个列互动,并以超过DDR5设计速率的速度与存储器控制器共同运作。该标准将从第一代8,800MT/s的速度开始,第二代来到12,800MT/s,最终到第三代迅速提高到17,600MT/s。这项技术得到了JEDEC、AMD、Google和微软(Microsoft)的支持。对于第二代MR DIMM,美光计划2026年开始出货。该类别模组将提供巨大的频宽和容量,以因应资料中心CPU内部核心数量不断增加以及对频宽的迫切需求。
Schuette说:“如果不采用各种新的外形来分类存储器,那真的很愚蠢!服务器的要求与用户端不同,服务器总是需要ECC,而用户端PC并不需要。”

异质的混合存储器子系统
对于芯片和系统开发人员而言,虽然选用特定的存储器类型可能是公认最佳做法,但也有业者选择采用不同类型的存储器,以构成混合存储器子系统。
例如,英特尔的Xeon Max CPU,在其HBM2e封装中配备64GB,并支援高达6TB的六通道DDR5存储器,每个插槽最多使用16个DIMM。这些CPU主要针对HPC环境,可以运作于HBM Only模式、HBM Flat模式(提供快速和慢速存储器等级),以及HBM Caching模式。
另一个例子是D-Matrix的AI处理器,内建256MB SRAM (150TB/s),支援高达32GB LPDDR5存储器,不过频宽有限。这些芯片主要用于推论,其架构是为此类工作负载量身打造的。
Kanter说:“一般来说,快取或芯片SRAM可以减少一些外部频宽需求。因此,就推论而言,如果能够使用小于100MB的神经网路,利用快取将有所助益。同样,为了减少封装频宽,可以将存储器整合得更靠近一些。但对于真正大型的训练系统,如训练下一代大语言模型(LLM),许多尖端工作总是需要更高频宽。”
由不同存储器类型组成的混合和异质存储器子系统,尽管已用于各种应用,例如用于Xbox 360游戏机中基于eDRAM“子芯片”的ATI Xenos GPU,或同时使用MCDRAM和DDR4存储器的Intel Xeon Phi 7200系列协同处理器。不过,Schuette认为这种存储器子系统并不完全有效率。他说:“想要两全其美是最糟糕的,因为这是一笔巨大的设计开销,而且非常复杂,也导致故障排除成为一大问题。”
另一方面,所有搭配CPU和加速器(根据定义来看)的系统都采用混合存储器子系统,而且也已被证明是非常高效的。Kanter说:“目前许多AI系统都是混合系统。例如,许多训练系统多半选择HBM用于加速器,选择DDR用于(实际工作的)主处理器,这有点类似于资料中心推论系统。”