BlueField-3 DPU：助攻企业大幅提升AI大语言模型训练性能-纳多德 - AI | Datacenter | Enterprise

以 GPT 系列模型为代表的大语言模型成为近来最受关注的技术之一。

模型越大， AI 回馈的效果越好。 OpenAI 的 GPT-1 模型有50亿个参数， GPT-3.5 有1750亿个参数，到现在的 GPT-4 预计将有超过一个T的参数。可以看出参数是成倍甚至成指数级增长。这种增长模型的变化，首先对内存性能有着极高要求，因为训练它需要海量数据，同时需要处理海量数据集；此外，是数据中心的计算能力，还有 GPU 与 CPU 之间的通信；更重要的是网络的带宽，这些因素将决定大语言模型的整体性能。

整体性能决定了大模型运行、训练所需的时长，也决定了对大模型后续调优再训练的周期。比如你的大语言模型训练需要6个月，一年可能最多训练2次，而别人训练只需要2或3个月，一年就可以训练多次，那么最后 AI 的迭代效果是完全不一样的。

在 AI 的竞赛中，有两种方式：第一种是用资源去堆，就像造车一样，后造车的永远要比先造车的人烧更多的钱去打市场；第二种是在同等资源下，比谁快，快就需要效率，而提高效率就需要 DPU 。

为了应对 AI 模型训练、推理带来的需求和挑战， NVIDIA 发布了其最新一代数据处理器 BlueField-3 DPU ，并宣布全面量产。

AI 时代需要云数据中心基础设施来支持非凡的计算需求。NVIDIA BlueField-3 DPU 实现了这一进步，将传统的云计算环境转变为加速、节能和安全的基础设施，以处理生成 AI 的苛刻工作负载。

BlueField-3 DPU 是一款专为数据中心设计的、软件定义、硬件加速的云服务计算平台。它集成了高达16个计算核心，是首款达400Gb/s为AI和加速计算而设计的DPU，助力各企业在任何规模的应用上都能实现业内领先的性能和数据中心的安全性。一个BlueField-3 DPU所提供的数据中心服务可相当于多达300个CPU核才能实现的服务，从而释放宝贵的CPU资源来运行关键业务应用。这款DPU针对多租户、云原生环境进行了优化，提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。BlueField-3 DPU 还拥有世界领先的存储加速功能，可提供高达1.6Tbp/s的存储带宽，并支持 NVMe-over-Fabric 和 RDMA 等高性能存储协议。NVIDIA BlueField-3 DPU 可加速、卸载和隔离 GPU 或 CPU 上的巨大计算工作负载，其中包含虚拟化、网络、存储、安全，以及其他云原生 AI 服务。

大语言模型背后的硬件构成是怎样的?以 NVIDA DGX 为参照，支持大语言模型的服务器由8颗 NVIDIA 高性能 GPU 、4个 NVIDIA NVSWITCHES 、2颗x86 CPU、9块 NVIDIA BlueField-3 DPU 、2T DDR5内存、PCIe Gen5.0，以及服务器间的 NVIDIA Quantum-2 InfiniBand 网络构成。

其中 NVIDIA BlueField-3 DPU 发挥了怎样的作用?

首先是加速性能：NVIDIA BlueField-3 DPU 具有丰富的硬件加速器，可以满足大语言模型严格的性能要求，并运行苛刻的工作负载；

其次，云规模效率：NVIDIA BlueField-3 DPU 可以释放 CPU 核心，使大语言模型应用具有更好的性能和可扩展性，提升服务器的效率和能效，降本增效；

第三是强大的零信任安全：安全的基础设施都可以运行在 NVIDIA BlueField-3 DPU 之上，并基于此构建零信任安全模型，在不影响性能的情况下，确保数据中心安全；

第四是完全可编程的基础设施：NVIDIA DOCA 2.0 体现了 NVIDIA BlueField-3 DPU 的软件可编程性，借助 NVIDIA BlueField-3 DPU 可以获得完全可编程的加速数据中心平台。

简单地说，NVIDIA BlueField-3 DPU 可以提升整个网络性能，配合高算力 GPU ，可以支撑更大规模的大语言模型训练，从而缩短训练时间。根据模型需求动态调整部署以共享算力资源，并应对不同规模的模型训练;提升服务器能效、释放算力资源，用更少的服务器完成更多的任务，从而帮助企业实现节能环保、降本增效。

新闻中心 见行见新，洞悉未来

新闻中心

见行见新，洞悉未来