为严苛型运算选择高频宽存储器

* 来源 : * 作者 : admin * 发表时间 : 2024-06-04

“高频宽存储器”(High Bandwidth Memory，HBM)尽管在性能方面无与伦比，但对于许多应用来说价格昂贵又耗电。
生成式人工智能(AI)应用的爆发式成长，刺激了对AI服务器和处理器的需求飙升。在这些处理器中——包括AMD和Nvidia的运算GPU，英特尔(Intel)的Gaudi或AWS的Inferentia、Trainium和FPGA等专用处理器，大多数都采用高频宽存储器(HBM)，因为它提供了当今最高的存储器频宽，美光(Micron)、三星(Samsung)和SK海力士(SK Hynix)等存储器制造商均计划在2023年提高一倍的高频宽存储器产量，并在2024年进一步增加。该计划也为存储器产业带来了挑战。
但目前有着许多的AI处理器——特别是那些为执行推论工作负载而设计的处理器，以及高效能运算(HPC)处理器，都要用到GDDR6/GDDR6X甚至LPDDR5/LPDDR5X存储器。不过，同样运行AI工作负载(针对特定指令最佳化)的通用CPU，则主要采用商用存储器。这就是为什么在未来几年，人们将会看到MCRDIMM和MRDIMM存储器模组显著提高其容量和频宽。不过，HBM仍将是频宽之王。
考虑到现代存储器类型的性能规范和功能，HBM在频宽密集型应用中如此受欢迎的原因显而易见。在每个堆叠约1.2TB/s的情况下，没有任何传统存储器能够在频宽方面胜过SK海力士的新型HBM3E。但频宽是有代价的，在容量和成本方面也有一些限制。
致力于制定AI硬体产业基准的AI工程联盟MLCommons常务董事David Kanter表示，“由于间距小，HBM不仅具有优越的频宽，而且还有卓越的低功耗性能。不过其主要缺点是需要先进封装，从而限制了供应，也增加了成本。尽管如此，HBM几乎肯定会一直占据一席之地。”
正是由于HBM存在的这些缺点，让DDR、GDDR和LPDDR等存储器类型也被选择导入许多频宽密集型应用，包括AI、HPC、绘图和工作站。美光表示，目前正迅速地投入开发这些容量和频宽最佳化的存储器，因此，AI硬体的开发工程师对其有着明确的需求。
美光运算和网路业务部资深经理Krishna Yalamanchi表示，“HBM是一项非常有前景的技术，其市场在未来有很大的成长潜力。目前，其应用领域包括AI、HPC和其他需要高频宽、高密度和低功耗的应用。随着越来越多的处理器和平台采用它，市场预计将会迅速成长。”
同时，Rambus则表示，市场显然需要频宽和容量。该公司开发、授权并协助实现存储器控制器相关的各种应用，包括用于AI工作负载的处理器。
Rambus负责产品行销、介面IP的副总裁Joe Salvador表示，“我们将持续在AI市场上看到的是，资料集越来越大。“性能需求、存储器频宽和存储器容量都正呈指数级增加。有趣的是，自2012年以来，训练模型以每年10倍的速度成长，而且似乎没有放缓的迹象。”
特别有趣的是，那些需要HBM的公司，往往会在一夜之间采用该标准的最新反覆运算。Rambus表示，如今，HBM2E几乎尚未开始用于设计，而新的反覆运算却已登场。

“当今几乎还没看到什么新的HBM2或HBM2E设计，市场风口就已经发生了转变。Salvador说，大多数新芯片设计通常使用HBM3，或者是全新的HBM3E，因此，Rambus的存储器控制器的资料传输速率高达9.6GT/s。Rambus表示，整合具有9.6GT/s功能的HBM3E存储器控制器，其功耗不应增加太多，不过可以肯定的是，HBM3E PHY和9.6GT/s HBM3E堆叠的功耗更高于一般的HBM3 PHY和HBM3堆叠。

HBM面对量产挑战
Gartner预计，2027年HBM的需求，预计将激增至惊人的9.72亿GB (2022年为1.23亿GB)，这意味着HBM位元需求占DRAM总量，将从2022年的0.5%增加至2027年约1.6%。这一迅速增加归因于传统AI和生成式AI应用对HBM的需求不断增加。
Gartner分析师认为，HBM的收益将从2022年的11亿美元成长到2027年约52亿美元，尽管其价格将比2022年的水准下降40%。另外，由于技术进步和存储器制造商的投入不断增加，HBM堆叠的密度也随之提升，将从2022年的16GB增加到2027年的48GB。同时，美光似乎更为乐观，预计2026年左右就会推出64GB HBMNext (HBM4)堆叠。HBM3和HBM4规格允许建构16-Hi堆叠，因此可利用16个32Gb元件来建构64Gb HBM模组，但这将要求存储器制造商减少存储器IC的间距，包括使用新的生产技术。
鉴于Nvidia拥有运算GPU领域的最大市场占有率，该公司很可能是该产业最大的HBM存储器消费者，并将持续一段时间。该公司的A30配备了24GB HBM2，A100配备了80GB HBM2E，H100具有80GB的可用HBM2E (PCIe)或HBM3 (SXM)，H200提供了141GB HBM3E，而GH200是第一个具有96GB HBM3或141GB HBM3E的产品。
但是，生产HBM KGSD (已知良好晶粒堆叠)基本上比生产传统DRAM芯片更复杂。首先，用于HBM的DRAM元件与用于商用存储器(例如DDR4、DDR5)的典型DRAM IC完全不同。存储器制造商必须先生产8或12个DRAM元件，通过测试后再将其封装在通过前期测试的高速逻辑层，然后再进行完整封装测试。这一过程不但成本高，耗时又长。
HBM堆叠基于3D堆叠DRAM架构，该架构利用矽穿孔(TSV)垂直连接多个芯片，这与商用DRAM有着根本的不同。Yalamanchi说：“这种采用TSV的堆叠架构支援非常宽的存储器介面(1024位元)、高达36GB的存储器容量以及超过1TB/s的高频宽操作。为了支援这种平行的位宽介面，DRAM单元和资料结构都经过了彻底重新设计。”
拥有多项存储器专利的DataSecure技术长兼布林实验室(Boolean Labs)技术长/首席科学家Michael Schuette认为，尽管HBM架构十分复杂，但由于生产方法是众所周知的，整体不应该代价高昂。
Schuette说：“这些并不是一个可怕的成本叠加器，其工具和方法是从3D NAND时建立的，可以为连接做矽穿孔，而所需要的只是从3D NAND移植到现有的TSV方法上。”
但是用于HBM的DRAM元件必须具有宽介面，它们在实体上比一般DRAM IC更大，因而成本也更高。因此，美光执行长Sanjay Mehrotra表示，为了满足AI服务器的需求，HBM存储器产量的增加将影响所有DRAM类型的供应。
Mehrotra在最近的一次电话会议上表示，“HBM的生产将成为产业位元供应成长的逆风。HBM3E芯片的尺寸大约是等效容量DDR5的两倍。HBM产品包括逻辑介面芯片，且其封装堆叠基本上也更复杂，从而影响生产良率。因此，HBM3和3E的需求将吸收产业中相当比例的芯片供应。HBM3和3E产量的增加，将降低整个产业DRAM位元供应的整体成长；随着更多产能被转移到HBM上，对非HBM产品的供应产生了特定的影响。美光正经历一次类似的影响——其所规划的HBM3E量产对于提升我们位元供应能力带来影响。”

HBM3E本质上是HBM3的大幅减速版，因此，尽管DRAM制造商必须确保可观的产量，然后调整生产方法，以更有效地建构8-Hi 24GB和12-Hi 36GB HBM3E KGSD，但新型存储器并不会代表HBM生产的重大转变。相形之下，它的“后继版本”却可能会。

HBM4：迈向更宽与3D道路
HBM4将扩展存储器堆叠介面至2048位元，这将是自八年前导入这种存储器类型以来HBM规范的最重大变化之一。将I/O接脚数量增加两倍，同时保持相似的实体占位面积，这无论对存储器厂商、SoC开发人员、代工厂，还是委外组装和测试(OSAT)公司来说，都极具挑战性。三星表示，HBM4将需要从目前用于HBM的微凸块键合(这已经很难且昂贵)过渡到直接铜对铜键合，这是一项最先进的技术，将在未来几年用于整合多个小芯片(chiplet)的设计。
Schuette说：“如果看看即将推出的HBM4规格和2,048位元宽介面，接脚数量将达到约5,500个，这已经相当于大多数服务器CPU或GPU的接脚数量了。如果试图以小的占位面积来设计布线，最终的中介层/重分布层(RDL)将多达20层，如果选择更大的占位面积和更少分层，最终将超过容许的最大迹线长度。”
SK海力士甚至设想HBM4必须在SoC上进行3D整合，以达到最大效率，但这将进一步增加成本。Kanter说：“在未来几年，我们可能会透过更紧密的整合(例如3D堆叠)实现更高的性能和效率，但这可能会更昂贵。”
Schuette认为，由于HBM4的接脚数极高，如果采用中介层和RDL的传统方法，将具有2,048位元介面的HBM4堆叠连接到主处理器可能会非常困难。Schuette解释道，“哪怕是最微小的翘曲，都可能导致连接不良。如果只是一个接地接脚，设计师可能不会注意到，但如果是一个讯号接脚，那就完蛋了！”
但3D封装技术将需要更复杂的设备，因此很可能(至少在初期)只有代工厂才有能力在2025～2026年间实现HBM4整合。
据报导，为了保持DRAM单元尺寸的微缩以及控制存储器功耗，三星打算在HBM4中使用FinFET电晶体。透过导入FinFET，有望最佳化HBM元件的性能、功率和面积扩展。然而，这项技术对成本的影响仍不确定。此外，三星何时能在标准DRAM IC中实现FinFET也尚未确定。目前，三星只确认了FinFET将用于HBM4。
Salvador说：“HBM4仍然会有成本问题，而且也有实施上的顾虑，使得HBM3/HBM3E的使用时期可能延长，特别是在一些成本更敏感之处。”
Yalamanchi说：“假设人们会想采用最快速的HBM版本并不一定准确。对于HBM来说，许多因素都可能影响存储器技术的选择，如成本、供应链限制、平台就绪情况以及性能要求等。”
由于架构和封装成本的根本不同，以服务于成长中的利基市场而言，HBM仍将是昂贵的存储器类型。Schuette某方面赞同这一观点，并指出，尽管HBM能够有效服务于其目标市场，但很难因应更广泛的市场。Schuette说：“HBM似乎仍然是一种利基型的产品，而且很可能一直如此。”。
那么，HBM是否可在成本上与商用或专用存储器竞争？

Kanter回答说：“这也并非不可能，但一定会是一段很长的时间。不过，HBM要想具有成本竞争力，就需要大幅降低封装成本，或是GDDR的成本大幅提高。抑或是出现一个根本性的技术转变，例如，GDDR从高速铜讯号转换到光学讯号。不过，我不确定到那时是否还是GDDR。”

LPDDR：低功耗的选择
虽然HBM在性能方面无与伦比，但对于许多应用来说，它既昂贵又耗电，因此有些开发人员为高频宽要求的应用选择美光的LPDDR5X，因为这种类型的存储器提供了价格、性能与功耗之间的平衡。
例如，在LPDDR成为趋势之前，苹果(Apple)的个人电脑(PC)多年来一直采用LPDDR存储器。目前，Apple已完善其基于LPDDR5的存储器子系统，在性能方面是其他竞争解决方案所无法比拟的。Apple的高阶桌上型电脑(内建M2 Ultra SoC的Mac Studio和Mac Pro)采用两个512位元存储器介面，频宽达到惊人的800GB/s。而AMD最新的Ryzen Threadipper Pro，配置12通道DDR5-4800存储器子系统，峰值频宽达到约460.8GB/s。
如同Apple在所有的装置中采用LPDDR5一样，其实还有一些额外的好处，例如可在不同的SoC中重复利用LPDDR 5控制器IP和PHY，再就是大量采购可得到更好的价格。Apple当然不是唯一一家将LPDDR存储器用于频宽密集型处理器，Tenstorrent也将这种存储器用于其Grayshell AI处理器。
Kanter说：“如今，它们似乎服务于不同的利基市场，而且存在着广泛的差异趋势。HBM针对资料中心，LPDDR则更适于边缘。实际上，在针对类似的市场时，设计师通常采用不同类型的存储器，例如在资料中心的推论设计中，HBM、GDDR、一般DDR与LPDDR皆会用到。”
LPDDR存储器芯片的明显优势之一，是其相对宽的介面和相当快的操作。典型的LPDDR5和LPDDR5X/LPDDR6T IC具有32或64位元介面，支援高达9.6GT/s的资料传输速率，这比大规模生产的DDR5所支援的资料速率更宽也更快得多。此外，行动存储器自然比用户端PC和服务器的主流DDR存储器功耗低。

对于利用Tenstorrent开发的应用，不但存储器频宽很关键，功耗也至关重要，这就是为什么LPDDR的使用范围近来远远超出智能型手机和用户端PC。

GDDR：性价比之间的平衡
Tenstorrent为业界带来了另一种存储器类型，将用于即将推出的Wormhole和Blackhole AI处理器。同时，Nvidia将GDDR6和GDDR6X用于各种AI推论的GPU。
Yalamanchi说：“GDDR存储器用于AI和其他应用，其实对于AI推论应用也是个好选择，因为相较于DDR ，GDDR能够提供更高频宽与更低延迟。此外，GDDR成本低，技术上也没有HBM那么复杂。例如，GDDR6用于Nvidia Tesla T4 GPU，以实现AI推论，而L40S则用于AI推论和绘图应用。”
GDDR6的功耗通常比LPDDR更高，而最新的GDDR6/GDDR6X芯片具有32位元介面(比LPDDR5X窄)，但GDDR6/GDDR6X/GDDR7存储器执行速度更快得多。

事实上，GDDR7的执行速度可高达36GT/s，对于如此高的资料速率，其存储器子系统将会比采用LPDDR5X的系统更加迅速，值得注意的是，我们谈论的是潜在的宽存储器介面，如384或512位元。即使在32GT/s的资料传输速率下，384位元LPDDR7存储器子系统的峰值频宽也可设置到1536TB/s，这远高于512位元LPDDR5X-9600存储器子系统(614.4GB/s)。不过，我们可以猜测LPDDR7存储器子系统的功耗将比采用LPDDR5X的存储器子系统更高，但考虑到其性能，这也是合理的权衡。

MCR-DIMM与MR-DIMM
如果没提到MCR-DIMM和MR-DIMM，那么关于高性能存储器解决方案的报导就不算完整。这是一种主要为服务器设计的新型双列DDR5存储器模组，目前正在开发中。该技术的理念是，在每个CPU核心数持续增加的情况下，进一步提高存储器模组的效率，并将其峰值频宽提高到DDR5支援的速度之上。
针对较高层级的多工器组合列DIMM (MCR-DIMM)，则是一种配备多工缓冲器的双列缓冲存储器模组。该缓冲器可以同时从两个列中检索128位元组的资料，并以高达约8,800MT/s的速率(基于美光发布的蓝图)配合存储器控制器运作，这比原始DDR5规格中指定的最高资料速率还高出400MT/s。这些模组除了提高性能，还简化了高容量双列模组结构。MCR-DIMM由英特尔和SK海力士支持，并计划用于英特尔的第六代Xeon可扩展Granite Rapids平台，而美光则计划在2025年初推出MCR DIMM。
多列缓冲DIMM (MR DIMM)在概念上与MCR-DIMM非常相似，也是具有多工缓冲器的双列模组，缓冲器同时与两个列互动，并以超过DDR5设计速率的速度与存储器控制器共同运作。该标准将从第一代8,800MT/s的速度开始，第二代来到12,800MT/s，最终到第三代迅速提高到17,600MT/s。这项技术得到了JEDEC、AMD、Google和微软(Microsoft)的支持。对于第二代MR DIMM，美光计划2026年开始出货。该类别模组将提供巨大的频宽和容量，以因应资料中心CPU内部核心数量不断增加以及对频宽的迫切需求。

Schuette说：“如果不采用各种新的外形来分类存储器，那真的很愚蠢！服务器的要求与用户端不同，服务器总是需要ECC，而用户端PC并不需要。”

异质的混合存储器子系统
对于芯片和系统开发人员而言，虽然选用特定的存储器类型可能是公认最佳做法，但也有业者选择采用不同类型的存储器，以构成混合存储器子系统。
例如，英特尔的Xeon Max CPU，在其HBM2e封装中配备64GB，并支援高达6TB的六通道DDR5存储器，每个插槽最多使用16个DIMM。这些CPU主要针对HPC环境，可以运作于HBM Only模式、HBM Flat模式(提供快速和慢速存储器等级)，以及HBM Caching模式。
另一个例子是D-Matrix的AI处理器，内建256MB SRAM (150TB/s)，支援高达32GB LPDDR5存储器，不过频宽有限。这些芯片主要用于推论，其架构是为此类工作负载量身打造的。
Kanter说：“一般来说，快取或芯片SRAM可以减少一些外部频宽需求。因此，就推论而言，如果能够使用小于100MB的神经网路，利用快取将有所助益。同样，为了减少封装频宽，可以将存储器整合得更靠近一些。但对于真正大型的训练系统，如训练下一代大语言模型(LLM)，许多尖端工作总是需要更高频宽。”
由不同存储器类型组成的混合和异质存储器子系统，尽管已用于各种应用，例如用于Xbox 360游戏机中基于eDRAM“子芯片”的ATI Xenos GPU，或同时使用MCDRAM和DDR4存储器的Intel Xeon Phi 7200系列协同处理器。不过，Schuette认为这种存储器子系统并不完全有效率。他说：“想要两全其美是最糟糕的，因为这是一笔巨大的设计开销，而且非常复杂，也导致故障排除成为一大问题。”
另一方面，所有搭配CPU和加速器(根据定义来看)的系统都采用混合存储器子系统，而且也已被证明是非常高效的。Kanter说：“目前许多AI系统都是混合系统。例如，许多训练系统多半选择HBM用于加速器，选择DDR用于(实际工作的)主处理器，这有点类似于资料中心推论系统。”

上一条: DDR6：下一代内存标准？下一条: "存储器全村希望”HBM是什么？

快讯：

为严苛型运算选择高频宽存储器

业内新闻

行情日评

品牌资讯