国产化服务器如何选择（超A服务器开箱鉴赏系列之四）

祢兜笑 2022-11-13 06:54:12

在益企研究院“超A服务器”开箱鉴赏系列前面三集中，主角都是2U的CPU服务器，作为本系列的完结篇，今天跟着狒哥一起来看一款支持8个英伟达A100 GPU的服务器，整体规格是4U，还蕴涵了3U和2U的元素，更有“隐藏款”1U双路CPU服务器。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(1)

超微有超多的GPU机型，仅仅H12代A 服务器（A Server）产品线中，就已经有六七款不同形态和GPU数量的型号，具有很强的代表性。

这款A Server 4124GO-NART支持双路AMD EPYC 7003/7002系列CPU，和8个采用NVLink互联的英伟达（NVIDIA）A100 GPU，面向高性能计算（High Performance Computing，HPC）、AI/深度学习（Deep Learning）等应用。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(2)

俗话说“千金易得，一GPU难求”。这里要特别感谢E企研究院的战略合作伙伴联泰集群，提供了配满8个A100 GPU的AS -4124GO-NART 供我们拍摄——看这个“ ”号就知道是NART的加强版，具体区别稍后解释。

在上述大数据量的应用场景中，集群里有大量的GPU协同工作（许多节点一起运行单个作业），不仅每个GPU的性能要很强，GPU之间的互连带宽也要尽可能高。体现在服务器设计上，就是对内GPU之间要通过NVLink而不是相对低效的PCIe连接，并采用高性能的NVMe SSD；对外要有足够数量的高性能网卡，支持GPUDirect RDMA，譬如200Gb/s的Mellanox ConnectX-6。

SXM4外形规格的A100 GPU通过英伟达专利的NVLink互联，带宽高达600GB/s，接近PCIe 4.0（x16）的10倍，而且不用去CPU转一圈儿，时延也要短很多。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(3)

A100 GPU的数量决定了NVLink组网的拓扑：4个GPU是两两直连，8个GPU则要通过6个NVSwitch。A100 GPU的显存有40GB HBM2和80GB HBM2e两种容量，SXM版本的最大TDP（Thermal Design Power，热设计功耗）分别高达400瓦（W）和500瓦，意味着8个GPU加6个NVSwitch芯片的总功耗可达4千瓦以上，对供电和散热能力的要求已经远超绝大多数CPU服务器。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(4)

AS -4124GO-NART由三个功能和外形不同的节点（Node）或者说子系统构成，分别是CPU节点、交换节点和GPU节点。单单GPU子系统就高达3U，深度约700mm，前端（机柜冷通道侧）是4个长宽92mm、深76mm的对旋风扇，分别达到13300RPM和12200RPM的高转速，后面的GPU基板上依次是6个NVSwitch和两行各4个A100 GPU，都安装有高大的散热片，气流先经过NVSwitch的散热片，然后在导流罩的约束下穿过密集排列的GPU散热片，再流过后方的交换节点和电源框排出。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(5)

强大的散热设计只是一款专业GPU服务器的必要而非充分条件，作为获得英伟达认证（NVIDIA Certified）的GPU服务器，AS -4124GO-NART遵循了英伟达的以下设计建议：

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(6)

首先，选择2个最高端的服务器CPU，以匹配8个A100 GPU。在GPU子系统的正上方，就是1U的双路CPU服务器，支持AMD EPYC 7763这样的64核“顶流”CPU。为了在1U的空间内安顿好2个TDP可达280瓦的CPU，超微采用了两大杀手锏：

一是8个4056对旋风扇，转速高达23300RPM/20300RPM（冷/热通道），向CPU吹出强劲气流；

二是大量应用3M出品的扁平线缆，紧贴机箱两侧和底部，尽可能不阻碍气流，保证散热效率。

其次，使用大量的PCIe链接。在2个CPU和8个A100 GPU之间使用至少4个PCIe x16链路，以确保CPU有足够的带宽将命令和数据推送到A100 GPU；

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(7)

第三，为了获得最佳的大规模AI训练性能，A100 GPU与网卡（NIC）1:1配比以保证节点之间的网络性能。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(8)

使用PCIe交换机连接CPU、GPU、网卡和NVMe（存储），形成浅层且平衡的PCIe树形拓扑，可实现从网卡和NVMe进出A100 GPU的最快点对点传输。AS -4124GO-NART的交换节点位于CPU节点后方，核心是4个PCIe交换芯片，两侧各有4个PCIe 4.0 x16扩展槽，可以安装8个200Gb/s高速网卡，满足对网卡数量和带宽的要求。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(9)

在交换节点的右侧边，还有1个来自CPU1的超微AIOM（Advanced I/O Module）卡槽，支持OCP 3.0网卡，提供基本而又灵活的网络连接能力。独立的RJ-45管理网口、VGA接口和2个USB 3.0端口，还有出自CPU2的PCIe 4.0 x16和x8 LP插槽各一，分居CPU节点前面板的两边。

最后，在存储方面，英伟达建议采用GPUDirect Storage，可减少读/写延迟，降低CPU开销，并实现更高的性能。AS -4124GO-NART支持大量的NVMe存储设备，除主板后部2个PCIe 4.0 x4的M.2 2280/22110槽位外，CPU节点前面板中部有6个、交换节点也可选配4个，共可提供10个热插拔2.5英寸U.2盘位。

是时候揭晓AS -4124GO-NART后面的这个“ ”号了。服务器后端被分为上下两个2U，上2U是已经介绍过的交换节点，下2U则留给4个大功率供电单元（PSU，简称“电源”）。NART是4个2200瓦铂金（Platinum）级电源3 1冗余，NART 则是4个3000瓦钛金（Titanium）级电源2 2冗余，具有高达96%的转换效率，可以作为NART的升级选项。无论哪种配置，都能保证6千瓦（kW）级别的供电能力，充分发挥8个A100 GPU的强大算力。

国产化服务器如何选择（超A服务器开箱鉴赏系列之四）(10)