0
简体中文

新闻中心
见行见新,洞悉未来

400G光模块,够ChatGPT用吗?
2023-09-25 253

今年初,以ChatGPT为代表的AIGC应用横空出世,火爆程度席卷全球。国内互联网公司也争相进行大规模的大模型投资。由此带来的问题之一是GPU的互连接口和带宽,国内此前采用的通用以太网架构大多基于400G体系,第三代与第二代400G的不同之处在于前者的host板卡侧基于下一代112G Serdes/PHY,可以非常灵活地过渡升级到800G系统。

因此,目前国内大型互联网公司在AI大模型的互联方面大多采用800G接口降速为400G的应用,但在后续接口应用上,实际上都是基于112G技术。

就目前而言,400G还能够满足AIGC的需求,但随着GPT-4和GPT-5对算力要求的不断增加,预计下一代GPU互联需要超过800G带宽才能满足需求,这也将推动整个产业链迅速转向下一代基于112G的新架构和多沟通模型。

如今,不仅是板卡内部通信,甚至板卡之间以及与交换机的连接,都采用了这种典型的结构。在连接需求剧增的情况下,如何确保多通道112G在不同的情况下能够稳定运行,是目前整个产业链正在努力解决的问题。

从400G到800G,需要注意什么?

从切换过程来看,400G到800G,需要特别注意的点有哪些呢?

AI大型模型是一个整体系统,涵盖了芯片、板卡、服务器和交换机,最终构成了需要相应资源调配的后端管控系统。在光通信方面,首要考虑的是光模块和IOC电缆等光连接技术,这些光连接涉及的距离可能从3米、10米甚至到100米不等,典型的互联方式各有不同。

因此从400G切换到800G系统时,有几个核心要点值得注意:

首先,要关注光模块的封装。硅光对下一代AI应用而言是非常重要的技术,因此现在的光模块设计更注重性能。目前硅光是单模技术,但随着技术发展,最终可能在成本上与传统多模光技术持平,由此带来的集成度会更高。

其次,数字信号处理(DSP)。尽管目前出现了一些线性驱动可插拨光模块(LPO)技术,但目前主流应用仍然基于DSP技术,关于这两者的性能平衡问题,学术界和行业内还存在不同看法。部分声音认为DSP和LPO已经达到了良好的性能平衡,可以在许多交换机上应用来实现更好的性能;另一部分则认为LPO技术在前10分钟内性能非常好,但随着时间推移,Margin会越来越低,直接导致热噪声,没有DSP的情况下,反射或温度带来的效应会加重后端主芯片处理的压力。

如果能实现DSP和LPO之间的平衡,就能确保在不同环境条件下,交换机长期稳定运行。

最后,112G技术成熟度。这涉及到从插件、PCV、先进封装和交换机性能、系统集成和处理等方面整个产业链,现在每一步看起来都面临着巨大的挑战。

我们今天讨论800G,明年也许就会讨论1.6T,这是AI大模型超前部署或大规模部署导致的数据流量的变化带来的加速,光模块厂家必须提前布局。

公众号
电话
027-5972 6363
购物车
0