返回文章列表
服务器

ASRock Rack 4UXGM-GNR2 CX8服务器架构解析

小熙
2026-02-11
3天前
ASRock Rack 4UXGM-GNR2 CX8服务器架构解析


ASRock Rack 4UXGM-GNR2 CX8代表着GPU服务器设计的一次重要转变。这台服务器在处理多GPU集群设计方面采用了全新的思路,特别是在人工智能工作负载领域。过去十多年来,服务器架构在处理多个GPU时遵循着相对一致的模式,但NVIDIA ConnectX-8技术的整合从根本上改变了这个局面。以往的世代需要独立的PCIe交换芯片和网络接口卡来管理八个GPU,而这个新设计将这些功能整合成更优雅高效的解决方案。结果是一个为每个GPU提供400Gbps网络带宽的系统,为大型AI集群实现了出色的横向扩展能力[1]。


外部设计与机箱尺寸考虑



ASRock Rack 4UXGM-GNR2 CX8采用标准的4U机架式规格,深度为800mm或约31.5英寸。这个尺寸代表了组件密度与散热管理需求之间的精心平衡。服务器的前面板立即显现出现代GPU服务器设计中的一个关键演进变化:采用E1.S固态硬盘。服务器容纳了十六个这样的紧凑型存储设备,与传统的2.5英寸硬盘格式有显着差异。



E1.S规格的意义在考虑空间效率时变得明显。传统的2.5英寸硬盘如果要容纳十六个驱动器,需要大约2U的前面板空间。这会严重限制可用于冷却气流的区域,迫使系统风扇更努力地工作以维持适当的工作温度。相比之下,E1.S硬盘占用的面板空间极小,同时仍能提供AI服务器部署通常所需的存储容量。这个设计选择贯穿整个系统的散热架构,允许更有效的冷却策略。

前面板的底部两个机架单元完全用于冷却,配备五个热插拔风扇模块。这种模块化的冷却方法提供了几个优势。首先,允许在不需要系统停机的情况下现场更换故障风扇,这在生产环境中是一个关键特性。其次,大直径风扇能够在较低转速下实现有效冷却,通常转化为降低的噪音输出和改善的能源效率。风扇模块与内部气流设计协同工作,创建前后冷却模式,满足存储子系统和主要计算组件的散热需求。


尽管强调冷却和存储,前面板仍然提供基本的用户界面元素。电源按钮和几个状态LED提供基本的系统交互能力。此外,两个USB 3.0 Type-A端口为维护任务、固件更新或需要本地连接的诊断操作提供便利访问。


后面板架构与网络设计创新

ASRock Rack 4UXGM-GNR2 CX8的后面板是该设计创新方面最明显的地方。乍看之下,配置似乎与上一代MGX设计相似,后面板上部可见八个GPU插槽。然而,网络连接的实现代表了与传统方法的根本性背离。


电源子系统由四个3.2kW 80Plus钛金认证电源供应单元组成。这些单元配置为3+1冗余方案,意味着三个电源供应器可以处理完整的系统负载,而第四个提供故障切换能力。这种冗余在生产环境中非常重要,因为计划外停机会带来显着成本。80Plus钛金认证表明这些电源供应器在广泛的负载条件下保持高效率,随着系统功耗接近10kW阈值,这变得越来越重要。


八个NVIDIA RTX Pro 6000 Blackwell Server Edition GPU主导后面板上部,每个都呈现自己的显示输出组。这些GPU代表NVIDIA针对服务器环境优化的最新架构,与前几代相比,在计算性能和内存容量方面都有大幅改进。Blackwell架构为AI工作负载引入了众多增强,包括改进的张量核心性能和更高效的内存利用。


在以前的服务器世代中,后面板通常会有多个PCIe插槽,填充各种网络接口卡。然而,在这个系统中,该角色由NVIDIA BlueField-3数据处理单元(即DPU)承担。这个复杂的组件处理所谓的"南北"流量,指的是服务器与外部资源(如存储系统、其他服务器和网络基础设施)之间的通信。BlueField-3通过其QSFP端口提供400Gbps的带宽,与前几代中常见的100Gbps甚至200Gbps连接相比有巨大增长。


BlueField-3 DPU的功能远不止一个简单的网络接口卡。包含多核基于ARM的处理器和自己的内存子系统,能够执行复杂的操作,包括网络安全功能、存储呈现和服务器配置任务。云服务提供商特别重视这种能力,因为允许在硬件级别实施安全策略和网络隔离,独立于主服务器操作系统。



GPU阵列下方是该平台的真正创新:NVIDIA ConnectX-8 PCIe交换板。该板承载四个NVIDIA ConnectX-8网络接口控制器,每个配置为提供能够实现400Gbps吞吐量的QSFP112端口。这种配置与NVIDIA的Spectrum-4交换基础设施完美对齐,例如提供51.2Tbps总交换容量的SN5610交换机。通过使用将单个800Gbps OSFP连接分成两个400Gbps QSFP112连接的分支线缆,系统架构师可以为多达128个GPU提供每个到单个交换机的专用400Gbps链路。为了说明这种带宽,400Gbps大致等于PCIe Gen5 x16接口的理论最大吞吐量。


基本输入输出区域包括一个mini DisplayPort连接器和一个USB 3.0 Type-A端口,用于本地系统交互。这些由专用管理端口和通过Intel i350控制器实现的两个1GbE端口补充。在一个配备八个400GbE和两个200GbE连接的系统中存在千兆以太网端口起初可能看起来令人困惑。然而,这些较慢的端口有特定用途:处理存在于IPMI层之上的操作系统和应用程序级管理流量。管理流量与高速数据流量的分离有助于防止管理操作干扰性能关键通信。

一个特别周到的设计元素是承载这些管理接口的模块化后部I/O板。该板可以拆卸和更换,而不会干扰主系统组件,简化现场服务操作并减少与连接相关问题的平均修复时间。


内部架构与散热管理策略

打开服务器机箱揭示了能够实现这种性能水平和密度的精心工程。内部布局遵循逻辑的从前到后的进展,每个子系统都针对在整体架构中的特定角色进行了优化。从前部开始,E1.S存储背板展示了紧凑驱动器格式的另一个优势。这些驱动器使用MCIO x8连接器,单根线缆和连接器同时服务两个驱动器。这种方法减少了线缆混乱,简化了内部气流路径。

存储背板充当机箱前部和中部之间的分隔组件。其后是上层风扇分区,与前面板上可见的五模块配置相呼应。这创建了一个双层冷却系统,底部2U的风扇通过机箱下部吸入空气,而顶部2U的风扇处理上部区域。这种分区方法允许独立优化服务器内不同散热区域的冷却。


每个风扇模块都可以单独检查和维护,采用坚固的结构设计,可在要求严格的数据中心环境中连续运行。热插拔这些模块的能力确保即使在风扇更换操作期间也能维持冷却容量,鉴于现代GPU工作负载的散热需求,这是一个关键特性。



拆卸风扇分区揭示了系统的核心:具有双Intel Socket E2或LGA4710插槽的主板。这些插槽容纳Intel Xeon 6处理器,特别是6700E、6700P或6500P系列。虽然E核心变体可用,但这个GPU平台的高端性质通常需要6700P系列,其具有性能优化的P核心。在单线程性能和内存带宽是关键因素的工作负载中,这种区别非常重要。


Intel Xeon 6700P处理器为该平台带来几个优势。每个处理器支持八通道DDR5内存,可以在2-DPC模式下运行,意味着每通道两个DIMM。这产生每个处理器十六个DIMM插槽,系统总共三十二个DIMM插槽。每通道填充两个DIMM的能力在AI工作负载中特别有价值,因为模型大小持续增长。虽然每通道运行两个DIMM通常会降低最大内存速度(与单DIMM配置相比),但对于许多工作负载而言,总容量优势往往超过边际带宽降低。


主板还包含一个垂直DC-SCM模块,为管理控制器和相关功能提供标准化接口。这种模块化方法简化了制造和现场服务,同时确保与不断发展的管理标准的兼容性。


整个主板上MCIO连接器的增多反映了行业更广泛的趋势,即从传统PCIe插槽转向基于线缆的连接。这种方法提供了几个好处。线缆提供刚性PCIe卡无法匹配的布线灵活性,允许设计人员优化散热和电气特性。MCIO标准还能够在更小的物理空间中实现更高的通道数,随着PCIe世代转换推动信号速率上升,这变得越来越重要。


线缆管理策略在机箱的GPU部分变得特别重要。专用托盘结构有多个目的:维持GPU周围气流的适当间距,防止运输期间GPU移动,为高性能加速器所需的众多电源线缆提供有组织的布线路径。八个GPU中的每一个都需要自己的专用电源连接,以不妨碍气流的方式管理这些线缆需要精心的机械设计。


拆下四个GPU后,底层PCIe基础设施变得可见。连接NVIDIA ConnectX-8 PCIe交换板到主板的MCIO线缆可以看到在GPU插槽下方运行。在交换板的另一侧,可以识别ConnectX-8封装的安装位置,每个都集成了网络接口功能和PCIe交换能力。这代表该平台的关键创新之一:不是有单独的交换芯片和单独的网络控制器,这些功能被组合到统一的组件中。


每个ConnectX-8控制器通过PCIe Gen5 x16接口连接到主机系统。交换板然后为每个ConnectX-8芯片提供两个PCIe Gen5 x16插槽,产生总共八个GPU连接。有趣的是,ASRock Rack已经设计这些插槽具有PCIe Gen6能力,为将利用Gen6提供的更高带宽的下一代GPU做好平台准备。虽然当前的Blackwell GPU使用PCIe Gen5,但前瞻性设计确保该平台可以容纳未来的GPU世代,而不需要完全重新设计。


八个NVIDIA RTX Pro 6000 Blackwell Server Edition GPU代表该平台的计算核心。这些加速器专为服务器环境设计,采用完全依赖系统气流而不是集成风扇的被动冷却解决方案。这种被动冷却方法在可靠性和可维护性方面提供了几个优势,但对整体散热设计提出了显着要求。顶部风扇分区及其高容量风扇阵列提供必要的气流,将这些GPU维持在工作温度范围内。


NVIDIA BlueField-3 DPU占据电源供应器和主GPU阵列之间的战略位置。这种放置反映了作为内部计算资源与外部网络基础设施之间主要接口的角色。DPU的复杂能力超越了简单的网络连接,涵盖安全功能、存储呈现和系统配置任务。


电源供应阵列后面是电源分配板,有效地将来自四个3.2kW PSU的电力路由到整个服务器的各个子系统。这种集中式分配方法简化了主主板设计,同时确保电力传输满足现代GPU加速器的要求。


系统拓扑与ConnectX-8创新



主板框图提供了有关各个子系统如何互连的宝贵见解。该图说明了将存储背板、网络控制器和GPU插槽连接到适当处理器PCIe通道的MCIO线缆布线。Intel主板设计中缺少传统平台控制器集线器简化了整体拓扑,同时降低了关键I/O操作的延迟。CPU之间的四个UPI链路能够实现缓存一致通信,使处理器能够作为统一系统而不是孤立的计算节点运行。


NVIDIA MGX PCIe交换板值得详细检视,因为代表了该平台的创新核心。该板在组件侧具有BlueField-3 DPU的插槽和八个GPU插槽,MCIO连接器提供到主机系统的物理接口。在反面,四个NVIDIA ConnectX-8 NIC芯片集成了PCIe交换功能。网络端口的QSFP112笼也位于这一侧,这提供了散热优势,允许光学器件和连接器受益于机箱后部较冷的空气。


NVIDIA ConnectX-8控制器的配置灵活性为该平台的能力增加了另一个维度。通过mlxconfig实用程序,管理员可以调整控制集成PCIe交换机功能、网络端口配置方式以及不同子系统之间资源分配方式的众多参数。这种可编程性允许相同的硬件针对不同的工作负载特性或部署场景进行优化。


传统八GPU系统与基于ConnectX-8的新方法之间的架构比较揭示了这种变化的重要性。以前的设计通常采用两个大型PCIe交换机,通常各有144个通道,将连接从主机处理器扇出到八个GPU。然后将额外的网络接口卡连接到这些交换机,也许提供四个400GbE端口,总共1.6Tbps的GPU网络带宽。ConnectX-8方法完全消除了独立PCIe交换机,而是将交换功能集成到网络控制器本身中。这不仅减少了组件数量和相关成本,而且提供了八个400Gbps链路,总共3.2Tbps的GPU网络带宽——恰好是前一代能力的两倍。


这种架构转变的影响超出了原始带宽数字。通过从系统中移除两个大型PCIe交换芯片,该平台降低了互连功能的总功耗。也简化了散热管理挑战,因为需要主动冷却的高功耗组件更少。通过将网络光学器件定位在机箱后部而实现的改进冷却可以增强可靠性,并可能在未来迭代中实现更高速度的光学器件。


性能验证与系统能力



验证这样一个平台的性能需要跨多个维度进行测试。CPU子系统、GPU阵列和网络基础设施各自需要证明在集成系统的功率和散热约束下运行时可以提供其指定的性能水平。对于CPU测试,该平台使用Intel Xeon 6767P处理器进行评估,代表6700P系列中的高端配置。与参考系统的比较测试证实,ASRock Rack平台提供必要的电力传输和冷却,使这些处理器能够在一系列工作负载中维持最大性能水平。


测试还使用稍低层级的Xeon 6760P处理器进行,以建立更广泛的性能基线。结果显示不同处理器型号之间的一致行为,表明该平台的功率和散热基础设施可以容纳完整范围的支持CPU,而不会损害性能特性。


GPU性能验证专注于确保所有八个NVIDIA RTX Pro 6000 Blackwell Server Edition加速器获得足够的冷却,并能在延长的工作负载持续时间内维持性能。测试以每GPU为基础进行,以识别某些GPU插槽可能获得比其他插槽更好或更差冷却的任何位置效应。这种变化在高密度GPU系统中并不罕见,其中气流模式可以在机箱中创建散热梯度。


经过十次测试迭代后,GPU之间测量的性能变化保持在可接受的范围内,温度差异限制在大约2摄氏度。这种均匀性确认冷却系统有效地处理所有GPU位置,而不会创建可能触发性能节流的散热热点。散热一致性也为长期可靠性带来良好前景,因为在相似温度下运行的组件往往经历更均匀的老化特性。


GPU支持NVIDIA的多实例GPU技术,能够将每个物理GPU分割为多达四个独立实例。在具有八个GPU的系统中,这种能力理论上可以提供三十二个独立的GPU分区,每个具有24GB的专用内存。这种分区能力在云环境中特别有价值,其中多个租户或工作负载需要共享GPU资源,同时维持隔离和服务质量保证。


网络性能测试专注于验证每个ConnectX-8端口的400Gbps能力。此集成交换板设计与独立ConnectX-8卡之间的关键区别是PCIe连接模型。在之前评测的独立配置中,ConnectX-8卡通常使用两个PCIe Gen5 x16链路来实现最大吞吐量。在这种集成交换板设计中,每个ConnectX-8使用单个PCIe Gen5 x16链路到主机,额外的PCIe带宽分配给GPU连接。使用Keysight CyPerf和IxNetwork基础设施的测试证实,单链路配置仍然为每个端口实现完整的400Gbps性能目标。


电源基础设施与功耗特性



鉴于现代GPU服务器的大量电力需求,电源子系统值得特别关注。四个3.2kW电源供应器提供12.8kW的总最大容量,尽管3+1冗余配置意味着在具有完全冗余的正常操作期间只有9.6kW可用。这可能看起来过多,直到考虑组件级功率需求。八个GPU,每个600W,仅占4.8kW。双处理器和三十二个DIMM的内存向总数添加大约750-800W。BlueField-3 DPU及其十六核ARM处理器和专用内存贡献额外的功率消耗。四个ConnectX-8 NIC、十六个E1.S SSD和大量冷却基础设施都消耗电力。


在测试期间,系统在大约8kW的总功耗下得到验证,尽管根据特定工作负载特性和配置选择,可能还有更高功率级别的空间。这个功率级别将服务器牢固地置于需要仔细数据中心规划的基础设施类别中。配电、断路器尺寸和冷却基础设施都必须按比例扩展以适应这些要求。


选择80Plus钛金认证电源供应器在这种情况下很重要。在所涉及的功率级别下,即使效率的微小差异也会转化为必须从数据中心移除的大量热量产生。在94%效率运行的电源供应器与在96%效率运行的电源供应器在废热中产生2%的差异。在8kW的系统功率下,这2%代表数据中心冷却系统必须处理的160W额外热量。在数百或数千台服务器中,这些效率差异累积为大量的运营成本影响。


架构影响与行业背景



要充分理解ConnectX-8 PCIe交换板的重要性,有助于了解多GPU服务器架构的历史演变。首批广泛采用基于PCIe交换的GPU连接的系统开始出现在2015年左右。这些早期设计主要使用交换机来实现单个服务器内的GPU到GPU通信,网络连接由单独的组件处理。典型配置可能包括八个GPU共享40GbE或也许100GbE的总网络带宽,为分布式训练工作负载创建严重瓶颈。


随着AI模型大小增长和训练数据集扩展,服务器间通信的重要性成比例增加。网络带宽从外围考虑演变为系统可扩展性的中心约束。到2023年,先进系统通过使用多个高端NIC和复杂的PCIe交换Fabric为每个GPU提供200Gbps。然而,这种方法需要大量机箱空间用于网络接口卡,并增加了系统复杂性。


ConnectX-8架构通过功能集成解决这些挑战。通过在单个封装中组合PCIe交换和网络接口能力,NVIDIA消除了整类组件,同时将每GPU带宽提高到400Gbps。与前一代相比,网络带宽翻倍直接影响分布式训练工作负载的扩展效率。组件数量的减少降低了采购成本和运营复杂性,而集成设计改进的散热特性增强了长期可靠性。


影响也延伸到数据中心级别。由于每个GPU现在能够维持400Gbps的网络流量,现代数据中心中常见的脊叶网络架构可以更有效地支持大规模AI训练特征的全对全通信模式。与NVIDIA的Spectrum-4交换基础设施对齐创建了一个有凝聚力的生态系统,其中服务器和网络技术针对AI工作负载进行共同优化。


总结与未来方向



ASRock Rack 4UXGM-GNR2 CX8体现了塑造现代GPU服务器设计的演进和创新变化。诸如采用E1.S存储和改进的散热管理策略等演进改进实现了更高的密度和改进的效率。然而,将PCIe交换集成到ConnectX-8网络控制器中从根本上重构了这些系统的架构方式。这一变化消除了十多年来一直是多GPU服务器固定装置的组件,同时提供前一代每GPU网络带宽的两倍。


部署NVIDIA RTX Pro 6000 Blackwell Server Edition GPU用于AI工作负载、可视化任务或虚拟桌面基础设施的组织将发现这种架构特别引人注目。高计算密度、大量内存容量和网络带宽的组合创建了一个非常适合最苛刻的当代工作负载的平台。随着AI模型在大小上继续增长,训练数据集扩展,平衡系统设计的重要性——其中计算、内存、存储和网络都与工作负载要求成比例——变得越来越关键。4UXGM-GNR2 CX8代表ASRock Rack对这些不断发展的要求的响应,借鉴超过十一年的多GPU服务器设计经验,提供针对下一代AI基础设施优化的平台。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议