英特尔AI救星迈入第三代Intel Gaudi 3

* 来源 : * 作者 : admin * 发表时间 : 2024-04-24

效能号称领先英伟达H100三到五成，英特尔AI救星迈入第三代

英特尔新一代AI加速芯片Gaudi 3出炉，导入台积电5纳米制程，BF16矩阵乘法运算效能可达到上代产品的4倍

在去年5月底ISC超级电脑大会之后，英特尔预告并购Habana Labs而得到的AI加速器Gaudi系列，将推出第三代产品，到了12月中该公司举办的AI Everywhere发表会，执行长Pat Gelsinger首度公开展示Gaudi 3芯片，并预告2024年将依照原先的时程推出。
今年4月英特尔召开的Vision年度用户大会期间，Gaudi 3正式发表，将于第二季上市，初期将透过Dell、HPE、联想、Supermicro 这4家服务器厂商供应。
相较于既有的Gaudi 2，Gaudi 3在BF16矩阵乘法运算的表现暴增至4倍（1,835 TFLOPS对上432 TFLOPS），FP8矩阵乘法运算的表现提升至2倍（1,835 TFLOPS对上865 TFLOPS），记忆体频宽增加至1.5倍、2倍（HBM频宽3.7 TB/s对上2.46 TB/s，SRAM频宽12.8 TB/s对上6.4 TB/s）。
那么，比起市面上最抢手的资料中心GPU产品Nvidia H100，Intel Gaudi 3的胜算在哪里？
英特尔预估这款新一代AI加速器，用于常见的大型语言模型的训练（Llama2-7B、Llama2-13B、GPT3-175B），平均耗费时间缩短50％；用于常见的大型语言模型的推论（Llama2-7B、Llama2-13B、Falcon-180B），平均吞吐量可领先50％，能源效益超越的比例是40％。
而就网络存取效能而言，每个Intel Gaudi 3的尖峰I/O吞吐量也比Nvidia H100高，差距比例为33％（1,200 Gb/s对上NVLink的900 Gb/s）。
相较于Nvidia即将推出的H100加强版H200，由于其配备容量更大（141 GB）、速度更快的高频宽记忆体（HBM3e），来势汹汹，Intel Gaudi 3的AI运算效能仍能继续胜出吗？根据英特尔的预估，用于常见的大型语言模型的推论（Llama2-7B、Llama2-13B、Falcon-180B），速度领先幅度可达到30％。
在此之前，市面上陆续出现多款加速运算产品向Nvidia H100 GPU下战帖。例如，英特尔2022年发表的Data Center GPU Max，2023年5月他们表示，针对多种工作负载，平均可领先Nvidia H100 PCIe的幅度为30％；11月他们揭露Data Center GPU Max 1550，针对多种高效能运算工作负载，平均可领先36％。
AMD 2023年12月发表的Instinct MI300X，号称在执行大型语言模型BLOOM-176B的推论，吞吐量可达到Nvidia H100的1.6倍，若用于Llama2-70B，延迟改善度达到1.4倍，套用后续的调校可增长至2.1倍，
至于英特尔Gaudi 2，2022年5月推出，11月曾与预览版本状态的Nvidia H100比较效能，在ResNet-50 的AI训练时间上，Nvidia H100领先幅度为11％，而在 BERT的AI训练时间上，Nvidia H100领先幅度为59％；
2023年5月，开放原始码AI社群Hugging Face表示，若使用上架在此的Optimum Habana 1.7版，处理视觉—语言模型BridgeTower的速度可达到Nvidia H100的1.4倍。
Intel Gaudi 3内建数量更多的新一代矩阵乘法引擎与张量处理器核心，配置更大容量的高频宽记忆体，支援的大量网络介面也升级至200GbE规格就产品制作与组成方式而言，Intel Gaudi 3导入更先进的台积电5纳米制程（Gaudi 2导入台积电7纳米制程），并采用Intel与Habana Labs共同发展的第五代异质AI加速架构。
以单颗芯片而言，Intel Gaudi 3改为内建两颗运算晶粒，当中各自囊括4个矩阵乘法引擎（MME）、32个具备完整可程式化功能的张量处理器核心（TPC）、可支援12个200 Gb/s连线频宽的乙太网络介面，以及48 MB容量的动态随机存取记忆体（SRAM）。而在两个晶粒之外，这里还设置8个16 GB容量HBM2e记忆体芯片，以此组成128 GB容量的统一存取记忆体。
关于Intel Gaudi 3采用的新一代MME引擎，英特尔也透露最显著的特色是能够平行处理6.4万个作业，提供相当高的AI运算速度与效率，足以因应复杂的矩阵运算，进而能提升深度学习效能，而且此元件同样支援FP8、BF16等多种资料型别，提供1.8 PFLOPS效能。
采用开放的网络技术与软体开发环境，也是Intel Gaudi系列的重要卖点。以前者而言，Intel Gaudi 3内建大量支援超高速乙太网络技术的连线介面，能够更直接用于大型运算丛集的部署，能够避免被采用专属网络技术的厂商捆绑，在执行规模的弹性配置上，可以透过有效率的方式进行纵向扩展（scale up），以及横向扩展（scale out），将运算丛集的规模拓展至数千台节点，以因应生成式AI模型工作负载的快速成长。
对于AI应用程式开发需求而言，英特尔与Habana Labs提供Intel Gaudi软体，包含效能最佳化底层元件Graph Compiler、软体开发套件TPC SDK，以及常用演算法（Paged Attention、Flash Attention）的重新订制实作。
而且，这项软体平台已整合PyTorch框架，以及其他常用的AI软体套件，像是用于分散式训练与推论的DeepSpeed，使用Transformer、Diffusers模型的Hugging Face，为了冲高大型语言模型处理吞吐量的vLLM。
在产品外形上，Gaudi 3不只是比照Gaudi 2，同样提供遵循OAM模组规格的夹层卡，以及内建8台OAM模组的基板（Baseboard），但这一代额外提供PCIe介面卡，以及汇聚4张PCIe介面卡的载板（Top-Board）。
然而，除了外形的差异，引发全球众多科技与财经媒体的关切之处在于，英特尔竟然直接表明Gaudi 3区隔为两大市场供应，分成专门提供中国用户的款式，以及中国以外用户的款式，并且特别列出5种款式的上市时程，以及彼此之间的共通点与差异。
例如，现在若要采购OAM外形的Gaudi 3，中国以外的用户可选择3月上市的HL-325L；中国用户只能选择HL-328，英特尔预计6月供应；若要采购支援液冷的OAM外形Gaudi 3，中国以外的用户可选择HL-335，英特尔预计10月供应。
若要采购PCIe介面卡外形的Gaudi 3，预计9月上市，中国以外的用户可选择HL-338，中国用户只能选择HL-388。
这5款的相同之处在于HBM记忆体的容量（128 GB）、尖峰存取频宽（3.7 TB/s）、介面（1024位元 x 8 stacks）、类型（HBM2e），末级快取记忆体（SRAM）容量（96 MB），主机连接介面（PCIe 5.0 x16），以及多媒体解码器（支援HEVC/H.265、AVC/H.264、VP9、JPEG）。
而被认定为中国市场专用版的HL-328、HL-388，英特尔标示的最大差异在于热设计功耗较低，例如，同为OAM外形，HL-325L与HL-335热设计功耗为900瓦，HL-328却只有450瓦；同为PCIe介面卡外形，HL-338热设计功耗为600瓦，HL-388只有450瓦。
这样的规格差异，显然是为了符合美国对于AI芯片的出口管制规定。根据科技媒体The Register的推算，Gaudi 3若要卖到中国市场，势必要大幅削减运算效能，可能会透过缩减核心数量、时脉执行速度，或其他限制效能的手段，才能达到这样的要求。
产品资讯

Intel Gaudi 3

●原厂：英特尔

●建议售价：厂商未提供

●产品外形与款式：OAM夹层卡HL-325L、HL-328、HL-335，基板HLB-325（连接8张HL-325）、HLTB-304（连接4张HL-338），PCIe介面卡HL-338、HL-388

●制程：TSMC 5纳米

●I/O介面：PCIe 5.0 x16

●核心架构：64个第5代张量处理器核心、8个矩阵乘法引擎

●记忆体：96 MB SRAM搭配128 GB HBM2e

●网络埠：24个200 GbE

●耗电量：OAM夹层卡HL-325L为900瓦，基板HLB-325为7,600瓦，PCIe介面卡HL-338为600瓦

上一条: DRAM/NAND价Q2估续扬提高产能牵动H2供需攻防下一条: 三星重申针对NAND Flash闪存进行减产的立场