阿里平头哥发布真武M890 AI芯片 144GB显存 性能达前代三倍

2026阿里云峰会上,平头哥发布新一代训推一体AI芯片真武M890,规格包括144GB显存、800GB/s片间互联,性能为前代真武810E的三倍,原生支持FP32至FP4多精度。配合ICN Switch 1.0芯片实现64卡全带宽互联,阿里云同步推出128卡超节点服务器。真武PPU累计出货超60万片,国内排名第二。

2026年5月20日,在2026阿里云峰会上,平头哥半导体公司正式展示了其新一代训推一体AI芯片真武M890。该芯片内置144GB显存,片间互联带宽达到800GB/s,性能达到前代真武810E的三倍,原生支持FP32、FP16、BF16、INT8、FP8、FP4等多种数据精度,可覆盖高精度训练、低精度和超低精度推理等全场景应用。

真武M890配合自研ICN Switch 1.0芯片,可实现64卡全带宽无阻塞互联,显著提升大规模智算集群的计算效率与稳定性。同时,阿里云还发布了基于真武M890的128卡超节点服务器,进一步夯实其“芯-云-模型-推理”一体化技术体系。值得注意的是,这是阿里云面向Agentic时代全面升级的重要一环。

核心规格解析

真武M890在显存容量上达到144GB,搭配800GB/s的片间互联带宽,为大规模模型训练提供了充裕的内存空间与高效的数据传输通道。与上一代真武810E(96GB HBM2e显存、700GB/s片间互联)相比,显存容量提升50%,互联带宽提升约14%,而整体算力达到前代的三倍。由于前代真武810E整体性能被官方定义为与NVIDIA H20相当,因此M890在AI算力上已实现对H20的显著超越。

真武M890芯片实拍
真武M890芯片(图片来自快科技合作媒体)

在数据精度支持方面,真武M890原生兼容从FP32高精度训练到FP4超低精度推理的全范围精度格式。开发者可根据模型规模和部署场景灵活选择精度,在训练阶段采用高精度保证收敛质量,在推理阶段切换至低精度以提升吞吐量并降低功耗。这种灵活的精度适配能力使M890能够高效应对从科研实验到工业部署的多样化需求。

互联技术与智算集群

大规模分布式训练对芯片间通信带宽要求极高。平头哥为真武M890配套设计了ICN Switch 1.0自研交换芯片,该芯片支持64张真武PPU(含M890)实现全带宽直连,构建无阻塞的通信拓扑。实验数据显示,在相同模型规模和卡数下,该方案能有效减少通信瓶颈,线性扩展效率优于传统以太网互联方案。阿里云同步推出的128卡超节点服务器,正是基于两颗ICN Switch 1.0芯片实现跨节点全互联,为千亿乃至万亿参数模型训练提供一体化算力底座。

在“芯-云-模型-推理”技术体系中,真武M890与阿里云的基础设施深度协同:芯片层通过ICN Switch实现高速互联,云平台层提供弹性调度与故障容错,模型层通过软硬协同优化达到最佳性能,推理层面则结合阿里云函数计算与容器服务实现按需部署。这套端到端方案旨在降低企业大模型落地门槛,加速AI应用从研发到生产的转化。

市场表现与前代对比

前代产品真武810E于2026年1月正式亮相,采用平头哥自研并行计算架构,配备96GB HBM2e显存,片间互联带宽700GB/s,官方标称整体性能与NVIDIA H20芯片持平。此次M890的推出,将平头哥在AI训推一体芯片领域的产品力拉升到新高度。

据IDC数据,截至2026年第一季度,平头哥真武系列PPU芯片累计出货量已突破60万片,在国内AI芯片厂商中位居第二,仅次于华为昇腾系列。目前真武芯片已覆盖国家电网、小鹏汽车等超过400家行业客户,应用方向包括智能驾驶、工业AI、云计算服务等。随着M890的正式亮相,平头哥在高端AI芯片市场的竞争格局有望进一步拓展。

整体来看,真武M890通过大幅提升显存容量、互联带宽以及算力密度,为阿里云在Agentic时代的AI基础设施提供了坚实的硬件基础。144GB显存、800GB/s互联、三倍性能提升等特性,使其在与国际主流AI芯片的对比中展现出强有力的竞争力。

本文参考来源:快科技

发表回复