美元换人民币  当前汇率7.20

英特尔AI救星迈入第三代Intel Gaudi 3

* 来源 : * 作者 : admin * 发表时间 : 2024-04-24
效能号称领先英伟达H100三到五成,英特尔AI救星迈入第三代

英特尔新一代AI加速芯片Gaudi 3出炉,导入台积电5纳米制程,BF16矩阵乘法运算效能可达到上代产品的4倍

 
在去年5月底ISC超级电脑大会之后,英特尔预告并购Habana Labs而得到的AI加速器Gaudi系列,将推出第三代产品,到了12月中该公司举办的AI Everywhere发表会,执行长Pat Gelsinger首度公开展示Gaudi 3芯片,并预告2024年将依照原先的时程推出。  
今年4月英特尔召开的Vision年度用户大会期间,Gaudi 3正式发表,将于第二季上市,初期将透过Dell、HPE、联想、Supermicro 这4家服务器厂商供应。  
相较于既有的Gaudi 2,Gaudi 3在BF16矩阵乘法运算的表现暴增至4倍(1,835 TFLOPS对上432 TFLOPS),FP8矩阵乘法运算的表现提升至2倍(1,835 TFLOPS对上865 TFLOPS),记忆体频宽增加至1.5倍、2倍(HBM频宽3.7 TB/s对上2.46 TB/s,SRAM频宽12.8 TB/s对上6.4 TB/s)。
那么,比起市面上最抢手的资料中心GPU产品Nvidia H100,Intel Gaudi 3的胜算在哪里?
英特尔预估这款新一代AI加速器,用于常见的大型语言模型的训练(Llama2-7B、Llama2-13B、GPT3-175B),平均耗费时间缩短50%;用于常见的大型语言模型的推论(Llama2-7B、Llama2-13B、Falcon-180B),平均吞吐量可领先50%,能源效益超越的比例是40%。  
而就网络存取效能而言,每个Intel Gaudi 3的尖峰I/O吞吐量也比Nvidia H100高,差距比例为33%(1,200 Gb/s对上NVLink的900 Gb/s)。
相较于Nvidia即将推出的H100加强版H200,由于其配备容量更大(141 GB)、速度更快的高频宽记忆体(HBM3e),来势汹汹,Intel Gaudi 3的AI运算效能仍能继续胜出吗?根据英特尔的预估,用于常见的大型语言模型的推论(Llama2-7B、Llama2-13B、Falcon-180B),速度领先幅度可达到30%。  
在此之前,市面上陆续出现多款加速运算产品向Nvidia H100 GPU下战帖。例如,英特尔2022年发表的Data Center GPU Max,2023年5月他们表示,针对多种工作负载,平均可领先Nvidia H100 PCIe的幅度为30%;11月他们揭露Data Center GPU Max 1550,针对多种高效能运算工作负载,平均可领先36%。  
AMD 2023年12月发表的Instinct MI300X,号称在执行大型语言模型BLOOM-176B的推论,吞吐量可达到Nvidia H100的1.6倍,若用于Llama2-70B,延迟改善度达到1.4倍,套用后续的调校可增长至2.1倍,
至于英特尔Gaudi 2,2022年5月推出,11月曾与预览版本状态的Nvidia H100比较效能,在ResNet-50 的AI训练时间上,Nvidia H100领先幅度为11%,而在 BERT的AI训练时间上,Nvidia H100领先幅度为59%;  
2023年5月,开放原始码AI社群Hugging Face表示,若使用上架在此的Optimum Habana 1.7版,处理视觉—语言模型BridgeTower的速度可达到Nvidia H100的1.4倍。
Intel Gaudi 3内建数量更多的新一代矩阵乘法引擎与张量处理器核心,配置更大容量的高频宽记忆体,支援的大量网络介面也升级至200GbE规格就产品制作与组成方式而言,Intel Gaudi 3导入更先进的台积电5纳米制程(Gaudi 2导入台积电7纳米制程),并采用Intel与Habana Labs共同发展的第五代异质AI加速架构。
以单颗芯片而言,Intel Gaudi 3改为内建两颗运算晶粒,当中各自囊括4个矩阵乘法引擎(MME)、32个具备完整可程式化功能的张量处理器核心(TPC)、可支援12个200 Gb/s连线频宽的乙太网络介面,以及48 MB容量的动态随机存取记忆体(SRAM)。而在两个晶粒之外,这里还设置8个16 GB容量HBM2e记忆体芯片,以此组成128 GB容量的统一存取记忆体。  
关于Intel Gaudi 3采用的新一代MME引擎,英特尔也透露最显著的特色是能够平行处理6.4万个作业,提供相当高的AI运算速度与效率,足以因应复杂的矩阵运算,进而能提升深度学习效能,而且此元件同样支援FP8、BF16等多种资料型别,提供1.8 PFLOPS效能。
采用开放的网络技术与软体开发环境,也是Intel Gaudi系列的重要卖点。以前者而言,Intel Gaudi 3内建大量支援超高速乙太网络技术的连线介面,能够更直接用于大型运算丛集的部署,能够避免被采用专属网络技术的厂商捆绑,在执行规模的弹性配置上,可以透过有效率的方式进行纵向扩展(scale up),以及横向扩展(scale out),将运算丛集的规模拓展至数千台节点,以因应生成式AI模型工作负载的快速成长。    
对于AI应用程式开发需求而言,英特尔与Habana Labs提供Intel Gaudi软体,包含效能最佳化底层元件Graph Compiler、软体开发套件TPC SDK,以及常用演算法(Paged Attention、Flash Attention)的重新订制实作。
而且,这项软体平台已整合PyTorch框架,以及其他常用的AI软体套件,像是用于分散式训练与推论的DeepSpeed,使用Transformer、Diffusers模型的Hugging Face,为了冲高大型语言模型处理吞吐量的vLLM。
在产品外形上,Gaudi 3不只是比照Gaudi 2,同样提供遵循OAM模组规格的夹层卡,以及内建8台OAM模组的基板(Baseboard),但这一代额外提供PCIe介面卡,以及汇聚4张PCIe介面卡的载板(Top-Board)。
然而,除了外形的差异,引发全球众多科技与财经媒体的关切之处在于,英特尔竟然直接表明Gaudi 3区隔为两大市场供应,分成专门提供中国用户的款式,以及中国以外用户的款式,并且特别列出5种款式的上市时程,以及彼此之间的共通点与差异。
例如,现在若要采购OAM外形的Gaudi 3,中国以外的用户可选择3月上市的HL-325L;中国用户只能选择HL-328,英特尔预计6月供应;若要采购支援液冷的OAM外形Gaudi 3,中国以外的用户可选择HL-335,英特尔预计10月供应。
若要采购PCIe介面卡外形的Gaudi 3,预计9月上市,中国以外的用户可选择HL-338,中国用户只能选择HL-388。
这5款的相同之处在于HBM记忆体的容量(128 GB)、尖峰存取频宽(3.7 TB/s)、介面(1024位元 x 8 stacks)、类型(HBM2e),末级快取记忆体(SRAM)容量(96 MB),主机连接介面(PCIe 5.0 x16),以及多媒体解码器(支援HEVC/H.265、AVC/H.264、VP9、JPEG)。
而被认定为中国市场专用版的HL-328、HL-388,英特尔标示的最大差异在于热设计功耗较低,例如,同为OAM外形,HL-325L与HL-335热设计功耗为900瓦,HL-328却只有450瓦;同为PCIe介面卡外形,HL-338热设计功耗为600瓦,HL-388只有450瓦。
这样的规格差异,显然是为了符合美国对于AI芯片的出口管制规定。根据科技媒体The Register的推算,Gaudi 3若要卖到中国市场,势必要大幅削减运算效能,可能会透过缩减核心数量、时脉执行速度,或其他限制效能的手段,才能达到这样的要求。
产品资讯
Intel Gaudi 3
●原厂:英特尔
●建议售价:厂商未提供
●产品外形与款式:OAM夹层卡HL-325L、HL-328、HL-335,基板HLB-325(连接8张HL-325)、HLTB-304(连接4张HL-338),PCIe介面卡HL-338、HL-388
●制程:TSMC 5纳米
●I/O介面:PCIe 5.0 x16
●核心架构:64个第5代张量处理器核心、8个矩阵乘法引擎
●记忆体:96 MB SRAM搭配128 GB HBM2e
●网络埠:24个200 GbE
●耗电量:OAM夹层卡HL-325L为900瓦,基板HLB-325为7,600瓦,PCIe介面卡HL-338为600瓦