中国部署纯CPU超算LineShine LX2：245万Armv9核心1.54 Exaflops

中国已部署一台名为LineShine LX2的超级计算机，与依赖NVIDIA GPU加速的主流AI超算不同，该系统完全基于中央处理器（CPU）构建，未使用任何图形处理器（GPU）。根据披露信息，其在AI训练场景下的峰值性能达到1.54 Exaflops（百亿亿次浮点运算）。系统采用华为（或华为与国家级超级计算中心联合设计）的LX2处理器，集成约245万个Armv9架构核心。这一部署也使其被称为中国当前规模最大的AI计算设施之一。

系统规模与核心架构

LineShine LX2的集群由20480个计算节点组成，每个节点配备两颗LX2处理器，因此整机共包含40960颗处理器芯片。每颗LX2处理器集成304个Armv9核心，累计约245万核心。处理器内部采用双计算芯粒（chiplet）设计，核心被划分为8个集群，每个集群包含38个核心。这种将大量核心分组的方式，旨在平衡片上通信带宽与计算密度。

处理器性能与技术特性

从单颗处理器来看，LX2可提供三种精度级别的算力：FP64双精度60.3 TFlops、BF16半精度240 TFlops、INT8整数960 TOPS。这些算力的实现，源自每个核心内建的ARM标量向量扩展（SVE）和标量矩阵扩展（SME）。SVE和SME专门用于加速矩阵运算，这是AI训练中占比最高的计算模式。由于整个系统完全在CPU上执行工作负载，不再需要处理器与加速器之间的数据传递，从而消除了异构架构中常见的通信开销和功耗增加。

纯CPU方案的设计逻辑

选择纯CPU架构意味着彻底放弃了对GPU加速器的依赖。在典型的CPU+GPU异构系统中，设备间内存独立、编程模型分离，数据迁移时常拉低整体效率。LineShine LX2将所有计算集中在统一的核心阵列上完成，避免了跨设备数据传输带来的延迟。该系统由华为关联企业LineShine部署，据称是目前中国最大的AI计算设施之一。关于涉及的LX2处理器的具体开发方——是华为独立研发，还是与中国国家超级计算中心联合设计——尚未最终公开。但无论其来源如何，这一系统的实际运行表明，通过大规模部署Armv9核心，纯CPU架构完全能够在AI训练场景下达到Exaflop级别的性能。

目前，LineShine LX2已投入使用，用于AI训练等计算任务。它以不依赖任何GPU的方式实现了高性能，展示了纯CPU架构在超算领域的实际运作能力。

本文参考来源：TechRadar

中国部署纯CPU超算LineShine LX2：245万Armv9核心实现1.54 Exaflops

系统规模与核心架构

处理器性能与技术特性

纯CPU方案的设计逻辑

阿逸

发表回复取消回复

系统规模与核心架构

处理器性能与技术特性

纯CPU方案的设计逻辑

阿逸

相关文章

希捷因向华为供应硬盘，被美国政府罚款3亿美元

iPhone 17 Pro系列降价冲击安卓高端市场

拍立得有哪些品牌？银盐扩散转印、热升华、ZINK哪种相纸更好？

发表回复取消回复