从ChatGPT等大模型的兴起,看未来计算芯片的发展趋势
大模型为什么“不约而同”的停留在上千亿的参数规模,没有突破万亿参数?原因主要在于,在目前的架构体系下:
单个GPU性能增长(Scale up)有限,想要增加性能,只有通过增加计算集群规模(Scale out)的方式;
上万GPU的计算集群,其东西向的流量交互指数级提升,受限于集群的网络带宽,约束了集群节点计算性能的发挥;
受阿姆达尔定律的约束,并行度无法无限扩展,增加集群规模的方式也到了瓶颈;
并且,如此大的集群规模,成本也变得不可承受。
总的来说,为了数量级的突破算力上限,需要从如下几个方面入手:
首先,性能提升不单单是单个芯片的事情,而