华为联合团队完成DeepSeek万亿参数模型后训练,1000块昇腾910C芯片实现全参数调优

华为联合研究团队使用至少1000块昇腾910C芯片,完成了DeepSeek V4-Pro(1.6万亿参数)的全参数后训练。这是中国AI芯片在训练类负载上的一次重要突破,但声明缺乏具体性能对比与第三方验证。

一个包括华为(Huawei)在内的研究团队在深圳市政府支持下,使用至少1000块华为昇腾(Ascend)910C芯片,完成了对DeepSeek V4-Pro模型的全参数后训练(full-parameter post-training)。该模型的参数规模达到1.6万亿,属于当前最大的AI模型之一。消息由深圳市官方渠道发布,经由《南华早报》报道,被视为中国本土AI加速器在训练类负载上的一项关键进展。

华为昇腾910C芯片集群
华为昇腾910C芯片集群用于DeepSeek模型后训练

全参数后训练:调优阶段的重要突破

后训练(post-training)是AI模型开发中紧随预训练(pre-training)之后的调优环节。预训练阶段通过海量文本语料构建模型的基础能力,DeepSeek V4-Pro的预训练语料据称超过32万亿token。后训练阶段则利用指令跟随、安全对齐和任务特定数据来塑造模型的最终行为,使其更符合实际应用需求。此次团队执行的是“全参数”后训练,意味着模型的所有权重均被更新,而非仅添加一层薄薄的适配层,这比常见的微调方案对计算和软件栈的要求更高。

团队由华为与深圳环宇研究所、哈尔滨工业大学(深圳)校区、深圳大数据研究院共同组成。他们表示,在昇腾910C集群上成功完成了这一任务。由于美国出口限制,中国AI企业一直难以获得英伟达(NVIDIA)高端训练芯片,因此这一成果被视为国产AI硬件在训练领域追赶的实证。不过,当前声明未提供后训练的具体耗时、与同任务在英伟达芯片上运行的比较数据,也未经过第三方独立验证。

昇腾910C:性能与过往局限

昇腾910C是华为目前旗舰AI加速器,采用双芯片封装设计。在早前DeepSeek的测试中,其推理性能约为英伟达H100的60%。中国芯片在推理(即已训练好的模型回答问题)方面已能与国际产品竞争,但训练(即通过大数据集重新计算模型权重)一直是薄弱环节。此前曾有报道称,DeepSeek在尝试用昇腾芯片训练其R2模型时遇到性能不稳定、芯片间互连速度慢以及CANN(华为替代英伟达CUDA的软件堆栈)存在差距等问题,最终不得不转向英伟达GPU完成训练,仅将昇腾用于推理。

DeepSeek在2025年4月发布的V4版本,是首个从设计之初就围绕昇腾架构构建的模型,这或许为此次后训练成功奠定了基础。此次后训练所用的昇腾910C集群至少包含1000块芯片,但实际集群规模可能更大,具体数目未被完全公开。

声明背景与可信度考量

该消息由深圳市政府发布,带有官方背书性质,但报道中也明确提到这仅是一方声明,缺乏运行时长、能效比及与英伟达平台对比等关键指标。此外,后训练虽然属于训练类负载,但其计算量远小于从头开始的预训练。预训练一个前沿模型通常需要数千乃至上万块加速器持续运行数周至数月,而后训练的规模相对小得多。因此,昇腾910C能否胜任更大规模的预训练任务仍存疑问。

尽管如此,能在国产芯片上完成万亿参数模型的完整后训练,仍然是中国AI硬件生态的一次实质性进展。它表明在软件栈(CANN)持续优化和芯片间互联改进后,昇腾平台已具备承接生产级调优任务的能力。这对于依赖国产替代方案的科技企业具有正向信号意义。

(本文基于Tom's Hardware及《南华早报》报道编译整理,配图仅为示意。)

 

名词解释:

全参数后训练(Full-parameter Post-training): 在模型预训练完成后,使用任务针对数据对模型所有权重参数进行更新调优的过程,区别于仅更新少量适配层的参数高效微调(PEFT)。需要更大的算力和显存,但能更彻底地适应新任务。

昇腾910C(Ascend 910C): 华为公司研发的高性能AI加速器,采用双芯片封装,支持FP16、BF16等精度计算,推理性能对标英伟达H100的约60%,是当前国产AI芯片的主力产品之一,主要用于数据中心训练和推理场景。

后训练 vs 预训练: 预训练(Pre-training)是模型从无到有学习语言规律、知识的主要阶段,计算量极大;后训练(Post-training)是在预训练基础上进行行为对齐、指令优化等精细调校,计算量小一个数量级。此次任务属于后训练,不意味着昇腾910C已能独立承担完整的预训练工作。

本文参考来源:Tom's Hardware



微信扫描下方的二维码阅读本文

华为联合团队完成DeepSeek万亿参数模型后训练,1000块昇腾910C芯片实现全参数调优 - AI芯片, DeepSeek V4-Pro, 全参数后训练, 华为, 国产替代, 昇腾910C, 模型调优

发表回复