随着以chat GPT4为代表的AI大模型问世以及相关应用的快速发展,AI训练和推理服务器有望进一步推升高速率光模块的需求。
1、AI大模型发展加速光模块迭代节奏,800G光模块放量或将超预期
根据Lightcounting2021年的预测,800G光模块将从2025年底开始主导市场,主要原因是AI应用等带来的数据流量的增长,超预期的数据中心带宽需求以及光模块厂商技术的迭代。
随着以chat GPT4为代表的AI大模型问世以及相关应用的快速发展,AI训练和推理服务器有望进一步推升高速率光模块的需求。
目前头部云厂商已开始集中测试和采购800G光模块,预计800G光模块出货量将在23年下半年快速增长,放量节奏将超出此前Lightcounting预期。
AI服务器促使数据中心网络架构的演变,从而提升光模块需求。普通GPU服务器一般只要求单卡性能,而在AI训练中,GPU卡间需要大量的参数通信,模型越复杂,通信量越大,所以AI服务器除了要求单卡性能外,还要求多卡间的通讯性能。这促使数据中心整体架构由传统的三层网络架构转化为脊叶式架构,数据流量从南北向到东西向转变。
叶脊使用所有的互联链路,每台叶交换机都连接到了脊交换机上,脊交换机之间和叶交换机之间没有任何互连,相对于传统的三层网络架构而言,减少了设备寻找或等待连接的需求,从而减少了延迟及流量瓶颈。由于其特殊的拓扑结构,系统对于光模块的需求得到了提升。
随着数据中心对于带宽需求的提升,叶脊架构中的光模块也在持续升级之中。速率方面,亚马逊、谷歌、微软、Facebook等北美超大型数据中心内部互连已经在2019~2020年开始商用部署400Gb/s光模块;国内数据中心正由100Gb/s逐步向400Gb/s过渡。根据IMT2020(5G)推进组预计,数据中心交换芯片吞吐量预计2023年将达到51.2Tb/s,2025年之后达到102.4Tb/s,800Gb/s和1.6Tb/s更高速率将成为实现高带宽数据交换的重要选择。
2、800G光模块保持高增长
Lightcounting预测光模块市场23年将出现10%下滑,但800G/1.6T光模块预计仍维持高增长。
根据LightCounting23年3月发布的最新报告,其下调了2023年以太网光模块销售的预测,从22年10月预测的2%的增长到现在10%的下降,24-28年的复合增长率预期仍为13%。
下降的主要原因是云巨头Meta公司放缓了数据中心的建设部署,支持元宇宙业务的数据中心升级计划许多都被搁置或缩小了规模。但Meta公司确认了其建立人工智能基础设施,并追赶亚马逊和谷歌的承诺,目前大多数400G光模块使用的场景,接下来将使用800G光模块。LightCounting并未太多的削减Meta对400G/800G光模块的需求预测,LightCounting对1.6T光模块的出货量预测没有改变,这些模块需要满足谷歌、亚马逊和微软运营的数据中心每年40%带宽增长的需求。
800GLPO方案或将成为AI服务器集群中最具性价比方案。LPO(Linear-drive Pluggable Optics)是线性驱动可插拨光模块,在数据链路中只使用线性模拟元件,无CDR或DSP芯片的设计方案。
在OFC 2023上,多家厂商展示了其linear-drive方案,包括Macom、Broadcom和Cisco等公司。相较DSP方案,LPO可大幅度减少系统功耗和时延(功耗相较DSP可下降接近50%,与CPO的功耗接近),而系统误码率和传输距离有所牺牲,深度契合目前AI计算中心的短距离大带宽低功耗低时延的数据连接需求。
AIGC应用加速落地催化超算数据中心和智算数据中心的建设,推动数据中心内部的数据传输和数据中心间互联,基于AI服务器对于大带宽、低功耗、低时延的数据连接需求,我们预计云巨头厂商将持续加大高速率光模块的采购量。