美元换人民币  当前汇率7.27

英伟达Blackwell GB200和GB300:开放计算平台的深度解析

* 来源 : * 作者 : admin * 发表时间 : 2025-08-25
英伟达在Hot Chips 2025上展示了其Blackwell GB200和GB300系统的详细技术细节,重点介绍了这些系统如何通过开放计算标准实现模块化设计和高效能。MGX是英伟达开发的一种模块化架构,旨在解决全球范围内执行的加速器扩展问题。该架构不仅支持人工智能或推理工作负载,还能适应其他特定客户需求,如不同的管理方式、网络接口控制器(NIC)、CPU和GPU组合等。每个小改动都会影响整个系统,因此,英伟达提出了MGX模块化架构,将系统分成多个模块,允许根据需求灵活调整各个组件。通过贡献给开放计算平台(OCP),MGX成为一种开放的标准,客户可以根据自身需求定制系统,包括管理、NIC等功能。这不仅提高了灵活性,还使得客户能够将其设计集成到自己的系统中。
GB200和GB300机架采用了开放标准设计,并发布了所有3D模型和技术图纸,供公众下载。每个机架顶部装有交换机,下方则是电源模块,负责将数据中心引入的高压交流电转换为直流输出,供给机架内的设备。在GB200系统中,共有10个计算托盘,包含300个芯片,9个交换机托盘和8个额外的计算托盘。每个计算托盘可提供80 FP4 Petaflops的性能,当与交换机连接时,整个系统能达到1.4 exaflops的处理能力。系统总功率约为120千瓦,每个计算托盘的功耗约为7千瓦。整个系统使用NVLINK主干进行连接。
每个计算托盘包含两个CPU和四个GPU,并支持一个Grace CPU和两个Blackwell GPU。框图底部显示了所有IO连接输出点,北侧有NVLINK连接器。此外,每个托盘都采用液体冷却技术,以提高数据中心效率。机架背面部署了空气辅助液体冷却设备(ALC),使高功率密度机架能够在现有数据中心中部署。这种冷却系统不仅提高了性能,还降低了能耗。
Meta在其Catalina数据中心服务器机架中采用了基于英伟达GB200 NVL72的解决方案,结合Open Rack v3和液体冷却技术。每个系统被称为Pod,由两个IT机架组成,形成一个72 GPU纵向扩展域。每个IT机架配置相同,包含18个计算托盘和九个NV交换机。Meta还开发了自己的光纤路径面板,用于连接机架内的网络设备,并使用RMC(机架管理控制器)监控泄漏和其他关键参数。这种设计不仅提高了系统的可靠性和性能,还使得大规模集群部署成为可能。
英伟达的Blackwell GB200和GB300系统展示了开放计算标准和模块化设计的优势。通过MGX架构,客户可以灵活定制系统,满足不同需求。而Meta的Catalina AI系统则展示了如何利用这些技术构建高效的数据中心基础设施。随着技术的进步,未来我们将看到更多创新的设计和应用,推动数据中心向更高性能和更高效的方向发展。