中国部署纯CPU超算LineShine LX2:245万Armv9核心实现1.54 Exaflops

中国部署LineShine LX2纯CPU超级计算机,采用华为LX2处理器,集成245万Armv9核心,AI训练性能达1.54 Exaflops,未使用任何GPU。

中国已部署一台名为LineShine LX2的超级计算机,与依赖NVIDIA GPU加速的主流AI超算不同,该系统完全基于中央处理器(CPU)构建,未使用任何图形处理器(GPU)。根据披露信息,其在AI训练场景下的峰值性能达到1.54 Exaflops(百亿亿次浮点运算)。系统采用华为(或华为与国家级超级计算中心联合设计)的LX2处理器,集成约245万个Armv9架构核心。这一部署也使其被称为中国当前规模最大的AI计算设施之一。

系统规模与核心架构

LineShine LX2的集群由20480个计算节点组成,每个节点配备两颗LX2处理器,因此整机共包含40960颗处理器芯片。每颗LX2处理器集成304个Armv9核心,累计约245万核心。处理器内部采用双计算芯粒(chiplet)设计,核心被划分为8个集群,每个集群包含38个核心。这种将大量核心分组的方式,旨在平衡片上通信带宽与计算密度。

\"LineShine
LineShine LX2超级计算机概念图

处理器性能与技术特性

从单颗处理器来看,LX2可提供三种精度级别的算力:FP64双精度60.3 TFlops、BF16半精度240 TFlops、INT8整数960 TOPS。这些算力的实现,源自每个核心内建的ARM标量向量扩展(SVE)和标量矩阵扩展(SME)。SVE和SME专门用于加速矩阵运算,这是AI训练中占比最高的计算模式。由于整个系统完全在CPU上执行工作负载,不再需要处理器与加速器之间的数据传递,从而消除了异构架构中常见的通信开销和功耗增加。

纯CPU方案的设计逻辑

选择纯CPU架构意味着彻底放弃了对GPU加速器的依赖。在典型的CPU+GPU异构系统中,设备间内存独立、编程模型分离,数据迁移时常拉低整体效率。LineShine LX2将所有计算集中在统一的核心阵列上完成,避免了跨设备数据传输带来的延迟。该系统由华为关联企业LineShine部署,据称是目前中国最大的AI计算设施之一。关于涉及的LX2处理器的具体开发方——是华为独立研发,还是与中国国家超级计算中心联合设计——尚未最终公开。但无论其来源如何,这一系统的实际运行表明,通过大规模部署Armv9核心,纯CPU架构完全能够在AI训练场景下达到Exaflop级别的性能。

目前,LineShine LX2已投入使用,用于AI训练等计算任务。它以不依赖任何GPU的方式实现了高性能,展示了纯CPU架构在超算领域的实际运作能力。

本文参考来源:TechRadar

发表回复