作者 | 邓咏仪
编辑 | 苏建勋
你在和AI机器人的对话框中,敲下一行想问的问题:现在你是一位英语老师,请帮我写一封邮件……
AI机器人的回复光标,在对话框中闪动数秒——这几秒背后,是AI大模型正在经历一轮高速而密集的计算过程。
顾名思义,“AI大模型”指拥有巨大的参数量的模型,其训练和推理也需要巨大算力挑战。这对底层基础设施:芯片、网络、存储、计算的要求,达到了前所未有的高度,迫使基础设施经历一轮升级。
腾讯云副总裁、腾讯云网络总经理王亚晨
近日,腾讯云就首次对外完整披露自研高性能计算网络“星脉”,专门面向AI大模型训练。
高性能计算计算网络如同AI大模型的“高速公路”和管道,数据在其中快速流动、交换。高性能计算网络连接了大量的服务器,组成算力集群。网络、服务器互联互通,才能共同完成AI的训练任务。
但大集群并不等同于大算力。计算集群越大,产生的额外通信损耗越多。因此,对AI大模型的网络而言,大带宽、高利用率、信息无损,是其面临的核心挑战。
腾讯云自研的“星脉”,是服务于AI大模型的专属高性能计算网络。在交换机、通信协议、通信库以及运营系统等方面,腾讯在软件和硬件层面,都进行了升级和创新。
就具体参数而言,腾讯云的“星脉”网络支持单服务器从1.6T升级到3.2T,这如同将“高速公路”拓宽了两倍,能传输更多的数据。
带来的计算效果提升也是明显的。据腾讯云,“星脉”能够提升40%的GPU利用率,节省30%-60%的模型训练成本,为AI大模型带来10倍的通信性能提升。
来源:腾讯云
事实上,从传统的计算网络到如今的高性能网络,都是由关键的技术革新所驱动的。
以腾讯自身为例,腾讯的计算网络发展也经历了三大阶段:
一、互联网服务时期:腾讯的起家产品QQ和微信,促使腾讯建立起了一张的巨大的计算网络。就以QQ为例,在线时长超过1亿,对应的服务器规模就超过了10万。“此时,网络的走向是比较常见的’南北向流量‘——也就是外部的用户的访问需求为主。”腾讯云副总裁、腾讯网络平台部的总经理王亚晨表示。
二、云服务时期:腾讯云不仅要服务自家的业务需求,也开始对外向企业提供云服务。此时,底层计算网络的形态也会发生变化。
购买云算力的企业用户,相当于在腾讯云上“租”了一个个小房子。云时代需要传输的数据,也不只是外部访问需求(比如C端用户要看电影、购物等),而是出现了大量“东西向”流量。
数据中心之间的互访流量越来越多——比如企业用户需要调用自己在云上的各类数据,这些数据存放在腾讯云不同的格子中。这对网络要求也更高,比如时延要求比以前是10倍甚至更高提升。
三、AI大模型时期:到了大模型时期,训练大模型需要巨量的数据和算力,这对计算网络的带宽需要经历再一次提升。
比起外部访问的流量,AI大模型的从开发到应用主要会分为两个阶段,在训练阶段,大模型的网络需求,大多来自以服务器和服务器之间的流量——也就是“东西向”流量为主,而非以前的外部访问流量。
“如果说过去前两个阶段,我们是村村通,解决大规模部署和广覆盖的问题,到了第三个阶段的星脉网络,我们解决的是高速公路,全自动化、无拥塞的高速公路。”王亚晨打了个比方。
通用AI大模型的GPU算力基本要到数千张甚至万卡级别。如何在服务器中部署这样的“高速公路”?
王亚晨表示,腾讯云主要通过自研设备搭建告诉公路,包括自研的交换机、光模块等,可以做到更快迭代。
腾讯也给每台服务器配备了高性能通信库TCCL,相当于“导航”,感知到网络拓扑,感知到路径的拥塞情况,做一些通信加速。腾讯也自研了端网协同的TiTa协议,这相当于在出现拥塞问题时,让数据重新“排队”通过。
而对于整个计算网络,“星脉”配置了全栈网络运营系统,进行验收部署、故障处理和问题定位。对大规模服务器集群的管理需要长时间的积累,王亚晨表示,最早腾讯做一个定位都是以天为级别的,但如今星脉可以实现故障的自动诊断,可以把时间降到分钟级。
在“星脉”高性能计算网络基础上,如今腾讯已经进行大模型的相关训练。以万亿参数大模型为例,在前年,100G网络训练相同数据需要50天;但在今年上半年,腾讯用七天时间就可以完成相同的训练。
王亚晨表示,在未来,随着数据集、参数不断增加,腾讯也有计划推出星脉2.0版本,包括GPU的互联规模、带宽、计算加速等等环节。“到下半年,我们可能就会推出互联数据达到800G、1.6T带宽的解决方案。