在AI显卡领域,NVIDIA凭借其强大的性能和成熟生态占据了约90%的市场份额,AMD虽在纸面参数上不断追赶,但在实际AI算力落地中仍有差距。AMD今年下半年将出货MI450系列AI显卡,竞争力进一步提升,而当前已在部署的MI350X系列依然需要深入挖掘潜力。在此背景下,AI云服务商Zyphra发布了首份基于AMD旗舰AI显卡MI355X的端到端大模型推理实测报告,测试在真实单节点环境下运行了DeepSeek V3.2、Kimi K2.6与GLM-5.1等主流大模型,旨在检验MI355X在真实生产环境中的推理能力。结果显示,MI355X在长文本场景下已具备对标NVIDIA Blackwell架构B200的潜力。

硬件规格对比:显存优势与互联短板
MI355X最突出的杀手锏是288GB的海量显存,远超NVIDIA B200的180GB。更大容量的显存使MI355X在处理超长文本时,单卡即可容纳更多缓存数据,直接省去了拆卡并行带来的额外硬件成本和通信开销。这一特性在长上下文推理场景中具有明显优势。
然而,AMD在芯片间互联带宽上处于劣势。B200凭借NVLink技术,任意双卡之间能够实现900GB/s的满带宽互联;而MI355X仍采用点对点Infinity Fabric直连,卡间通信效率一般,带宽峰值仅为537.6GB/s。这种硬件层面的互联短板可能成为多卡协同推理的瓶颈。
软件算法优化:弥补互联缺陷
针对MI355X在互联带宽上的硬件短板,Zyphra团队开发了张量序列并行(TSP)与树状注意力(Tree Attention)算法进行软件层面优化。其核心思路是用树状通信取代传统的环形网络,将解码阶段的计算与数据传输完全折叠在一起,从而有效降低通信延迟并提高带宽利用率。通过算法手段,多卡间的数据交换效率得到显著提升,一定程度上弥补了点对点Infinity Fabric互联的先天不足。
实测表现与后续计划
实测数据显示,在单请求绝对速度上NVIDIA B200依然全面领先,但随着上下文长度不断增加,MI355X经过软件优化后的吞吐量逐步逼近B200,尤其在长文本生产环境中,大显存优势得以充分发挥。Zyphra用实例证明,只要底层软件栈优化足够完善,AMD的AI显卡也能依靠自身硬件特性与NVIDIA旗舰级产品正面竞争。
基于此次测试经验,Zyphra计划利用这套算法架构支持1.6万亿参数的DeepSeek V4 Pro部署,并将上下文拉升至100万token。此外,团队后续还将针对MI355X开发专属的低精度量化方案,并引入全新的扩散投机采样模型,进一步挖掘这块芯片的算力潜能。
本文参考来源:快科技



