AI大模型对智算中心网络的需求 -NADDOD纳多德 - HPC | AI | Datacenter | Enterprise

从 Transformer 问世至 2023 年 ChatGPT 爆火，人们逐渐意识到随着模型参数规模增加，模型的效果越来越好，且两者之间符合 Scaling law 规律，且当模型的参数规模超过数百亿后，AI 大模型的语言理解能力、逻辑推理能力以及问题分析能力迅速提升。同时，随着模型参数规模与性能提升后，AI 大模型训练对于网络的需求相比于传统模型也随之产生变化。

为满足大规模训练集群高效的分布式计算，AI 大模型训练流程中通常会包含数据并行、流水线并行及张量并行等多种并行计算模式，不同并行模式下均需要多个计算设备间进行集合通信操作。另外，训练过程中通常采用同步模式，需多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。因此，在 AI 大模型的大规模训练集群中，如何设计高效的集群组网方案，满足低时延、高吞吐的机间通信，从而降低多机多卡间数据同步的通信耗时，提升 GPU 有效计算时间占比(GPU 计算时间/整体训练时间)，对于 AI 分布式训练集群的效率提升至关重要。以下将从规模、带宽、时延、稳定性及网络部署角度分析 AI 大模型对于网络的需求。

超大规模组网需求

AI 应用计算量呈几何级数增长，算法模型向巨量化发展，人工智能模型参数在过去十年增长了十万倍，当前 AI 超大模型的参数目前已经达到了千亿~万亿的级别。训练这样的模型，毫无疑问需要超高算力。此外，超大模型对于显存的需求也很高。以 1T 参数模型为例，使用 16bit 精度存储，首先需要消耗 2TB 的存储空间。除此之外，在训练过程中，前向计算产生的激活值、反向计算产生的梯度、参数更新需要的优化器状态等中间变量均需要存储，且中间变量在单次迭代中也会不断增加。一个使用 Adam 优化器的训练过程，峰值会产生 7 倍于模型参数量的中间变量。如此高的显存消耗，意味着需要几十上百个 GPU 才能完整存储一个模型的训练过程。

可是，仅仅有了大量 GPU，仍然无法训练出有效的大模型。合适的并行方式才是提升训练效率的关键。目前超大模型主要有三种并行方式：数据并行、流水线并行、张量并行。

在千亿~万亿级别的大模型训练时，以上三种并行都会存在。训练超大模型需要数千GPU 组成的集群。表面上看，这和云数据中心当前已经达到数万服务器的互联规模相比，还处于下风。但实际上，几千节点的 GPU 互联，比数万服务器的互联更具有挑战，因为网络能力和计算能力需要高度匹配。云数据中心使用CPU计算，网络需求一般在10Gbps~100Gbps，并且使用传统TCP传输层协议。但 AI 超大模型训练使用GPU训练，算力比 CPU 高好几个数量级，互联网络需求在 100Gbps~400Gbps，此外使用了 RDMA 协议来减少传输时延，提升网络吞吐。

具体来说，数千 GPU 的高性能组网，在网络规模上有以下问题需要考虑：

大规模 RDMA 网络遇到的问题，例如链路头阻、PFC 死锁风暴

网络性能优化，包括更高效的拥塞控制、负载均衡技术

网卡连接性能问题，单主机受到硬件性能限制，如何构建数千 RDMA 的 QP 连接

网络拓扑选择，是传统 Fat Tree 结构更好，还是可以参考高性能计算的 Torus， Dragonfly 等组网

超高带宽需求

在 AI 大模型训练场景下，机内与机外的集合通信操作将产生大量的通信数据量。从机内 GPU 通信角度看，以千亿参数规模的AI模型为例，模型并行产生的 AllReduce 集合通信数据量将达到百GB级别，因此机内GPU间的通信带宽及方式对于流完成时间十分重要。服务器内GPU应支持高速互联协议，且其进一步避免了GPU通信过程中依靠CPU内存缓存数据的多次拷贝操作。从机间 GPU 通信角度看，流水线并行、数据并行及张量并行模式需要不同的通信操作，部分集合通信数据将达到百 GB 级别，且复杂的集合通信模式将在同一时刻产生多对一与一对多的通信。因此机间 GPU 的高速互联对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。另外，GPU 与网卡间通常通过 PCIe 总线互联，PCIe 总线的通信带宽决定网卡单端口带宽能否完全发挥。以 PCIe3.0 总线(16lane对应单向 16GB/秒带宽)为例，当机间通信配备 200Gbps 的单端口带宽时，机间的网络性能将无法完全被使用。

超低时延及抖动需求

在数据通信传输过程中产生的网络时延由静态时延和动态时延两个部分构成。静态时延包含数据串行时延、设备转发时延和光电传输时延，静态时延由转发芯片的能力和传输的距离决定，当网络拓扑与通信数据量确定时，此部分时延通常为固定值，而真正对网络性能影响比较大的是动态时延。动态时延包含了交换机内部排队时延和丢包重传时延，通常由网络拥塞和丢包引起。

以1750亿参数规模的 GPT-3 模型训练为例，从理论估算模型分析，当动态时延从 10us提升至 1000us 时，GPU 有效计算时间占比将降低接近 10%，当网络丢包率为千分之一时，GPU 有效计算时间占比将下降 13%，当网络丢包率达到 1%时，GPU 有效计算时间占比将低于 5%。如何降低计算通信时延、提升网络吞吐是 AI 大模型智算中心能够充分释放算力的核心问题。

除时延外，网络变化因素引入的时延抖动也对训练效率产生影响。训练过程中计算节点的集合通信过程一般可以拆解成多个节点间并行执行 P2P 通信，例如 N 个节点间 RingAllReduce 集合通信包含 2*(N-1)次的数据通信子流程，每个子流程中所有节点均完成 P2P通信(并行执行)才可结束这个子流程。当网络出现波动时，某两个节点间的 P2P 的流完成时间(FCT)将明显变长。因网络抖动引入的 P2P 通信时间变化可理解为木桶效率的最弱一环，将会导致其所属的子流程的完成时间也随之变长。因此，网络抖动导致集合通信的效率变低，从而影响到 AI 大模型的训练效率。

超高稳定性需求

Transformer 诞生以后，开启了大模型快速演进的序章。过去 5 年时间，模型从 61M，增长到 540B，翻了近 1 万倍!集群算力决定了 AI 模型训练速度的快慢，单块 V100 训练GTP-3 需要 335 年，10000 张 V100 的集群，集群系统完美线性扩展需要 12 天左右时间。

网络系统的可用性是作为基础来决定整个集群的计算稳定性。一方面，网络故障域大，集群中一个网络节点的故障可能会影响数十个甚至更多的计算节点的连通性，降低系统算力的完整性;另一方面，网络性能波动影响大，网络作为集群共享资源相较于单个计算节点不容易被隔离，性能波动会导致所有计算资源的利用率都受影响。因此在 AI 大模型训练任务周期中，维持网络的稳定高效是极其重要的目标，对网络运维带来了新的挑战。

在训练任务期间一旦发生故障，可能需要容错替换或者弹性扩缩容的方式来处理故障节点。一旦参与计算的节点位置发生了变化，导致当前的通信模式或许就不是最优的，需要通过作业重新排布和调度，以此来提升整体训练的效率。另外，一些网络故障(例如静默丢包)的发生是不可被预期的，一旦发生不仅会导致集合通信效率降低，同时还会引发通信库超时，造成训练业务长时间卡死，很大程度上影响训练效率。因此需要通过获取细粒度的业务流吞吐、丢包等信息，可避障自愈的耗时控制在秒级别内。

网络自动化部署需求

智能无损网络的构建往往基于 RDMA 协议及拥塞控制机制，但与之相伴随的是一系列复杂多样化的配置。其中任一个参数配置错误都可能会影响到业务的性能，还有可能会引出些许不符合预期的问题。据统计，超过 90%的高性能网络故障是由配置错误导致的问题，出现这一问题的主要原因是网卡配置参数多，其中参数量取决于架构版本、业务类型和网卡类型。由于AI大模型训练中集群规模大，进一步增大配置的复杂度。因此，高效或自动化部署配置能够有效的提升大模型集群系统的可靠性和效率。自动化部署配置需要能够做到多台并行部署配置的能力，自动选择拥塞控制机制相关参数以及根据网卡类型和业务类型选择相关配置。

同样的，在复杂的架构和配置条件下，在业务运行过程中可快速准确地故障定位，能够有效保障整体业务效率。自动化的故障检测一方面可以快速定界问题，精准推送问题至管理人员，另一方面可以减少问题定位成本，快速定位问题根因并给出解决方案。

选择NADDOD的连接产品，加速AI模型网络部署

根据前面的分析可知，AI 大模型对网络的需求主要体现在规模、带宽、稳定性、时延/抖动以及自动化能力 5 个方面。而从当前布局的数据中心网络的实际能力来看，完全匹配 AI 大模型的需求在技术上仍然有一定的差距。

AI大模型对网络的需求非常高。由于这些模型通常具有巨大的参数量和复杂的计算需求，需要庞大的计算和存储资源来支持其训练和推理过程。与此同时，高速的网络连接也是必不可少的，以确保数据的高效传输和处理。NADDOD提供了高质量的连接产品，以满足AI模型网络部署的需求。同时NADDOD凭借优质的技术团队，可以根据客户实际情况因地制宜提供最优的解决方案，提升网络性能和用户体验。

NADDOD的产品除了交换机和网卡外，还有速率从低到高的100G、200G、400G、800G的光模块，AOCs和DACs等，通过提供高效的数据传输能力，加速了AI模型训练与推理过程。在大规模AI训练中，光模块将分布式计算节点连接起来，协同完成复杂计算任务。其具有的高带宽、低延迟、低误码率的特性，不仅加快了模型更新与优化，也降低了通信延迟，实现了更快速、高效的人工智能计算。选择NADDOD提供的连接产品，可以提升数据中心网络的能力，以更好地支持AI大模型的部署和运行。

新闻中心 见行见新，洞悉未来

新闻中心

见行见新，洞悉未来