腾讯云对外披露星脉高性能计算网络


(资料图片)

中国青年报客户端讯(中青报·中青网记者王林)6月26日,腾讯云首次对外完整披露自研的星脉高性能计算网络,其具备3.2T通信带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。

AI大模型驱动网络演进示意图

AIGC的火爆,带动AI大模型参数量从亿级飙升至万亿级,为支撑海量数据的大规模训练,大量服务器通过高速网络组成算力集群。千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。

为解决这类问题,腾讯云推出面向AI大模型的星脉高性能计算网络:在硬件方面,采用全自研设备构建互联底座,实现自动化部署和配置;在软件方面,采用先进的拥塞控制和管理技术,满足大量服务器节点之间的通信需求,使集群通信效率达90%以上。

为确保星脉网络的高可用性,腾讯云自研了端到端的全栈网络运营系统,将整体故障排查时间降低至分钟级,大模型训练系统的整体部署时间也得以从19天缩减至4.5天。

基于星脉高性能网络,腾讯云打造了新一代HCC高性能计算集群,可实现3.2T超高互联带宽,算力性能较前代提升3倍。腾讯云副总裁王亚晨表示,星脉网络所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力突破算力瓶颈,进一步释放AI潜能,全面提升企业大模型的训练效率。

来源:中国青年报客户端

关键词:

编辑: MO
下一篇: 最后一页

相关新闻

精彩推送