神经处理单元(NPU) 作为专为人工智能推理任务设计的专用处理器,正在重塑全球 AI 计算格局。本报告基于 2025 年 11 月最新市场数据,系统梳理了全球 NPU 架构的技术演进脉络与企业竞争格局。研究显示,当前 NPU 市场呈现"国际巨头主导、本土企业崛起"的竞争态势,英伟达以 66.7% 的市场份额位居中国 AI 推理芯片市场第一,华为以 74.9% 的份额领跑中国 NPU 驱动的 AI 推理芯片市场。

从技术演进维度看,NPU 发展经历了四个关键阶段:早期探索期(2010-2015 年)以嵌入式 IP 形式存在,算力低于 1 TOPS;独立 NPU 崛起期(2016-2020 年)实现了从固定功能向可编程架构的转变;高性能集成期(2021-2024 年)形成了 CPU+GPU+NPU 异构计算平台;专用架构期(2024 年至今)则聚焦于大模型推理优化,算力密度预计以年均 45% 的速度提升。
在产品性能方面,最新一代 NPU 展现出显著的技术突破:NVIDIA Blackwell Ultra实现 15 PetaFLOPS 的 NVFP4 计算性能,配备 288GB HBM3e 内存;华为昇腾 950系列算力达到 1 PFLOPS(FP8)/2 PFLOPS(FP4),互联带宽提升至 2TB/s;苹果 M5采用突破性的 GPU 内置神经加速单元设计,AI 性能较 M4 提升超 4 倍。
一、NPU 技术概述与市场格局
1.1 NPU 架构定义与技术特征
神经处理单元(Neural Processing Unit, NPU)是专门为神经网络计算任务设计的专用处理器,其核心特征在于能够同时进行数百万乃至数万亿次微小运算,实现 "每秒万亿次运算(TOPS)" 的高性能指标。与传统 CPU 的串行执行模式不同,NPU 采用完全不同的设计理念,在其电路中模拟人脑的神经元和突触结构,专门针对 AI 推理任务进行优化。
NPU 的技术演进经历了从固定功能到可编程架构的重要转变。早期 NPU(如 Google TPUv1)只支持固定算子,而现代 NPU 开始支持张量中间表示(IR)和微指令集架构(ISA),能够运行更多样化的模型结构。这一技术进步使得 NPU 能够适应不断发展的 AI 算法需求,从最初的 CNN(卷积神经网络)扩展到 Transformer 等复杂架构。
在性能指标方面,NPU 展现出了极致的能效比优势。在相同功耗下,NPU 执行 AI 推理任务的速度和效率远超 CPU 和 GPU,这对于电池供电的移动终端和对功耗敏感的物联网设备至关重要。例如,高通第五代骁龙 8 的 Hexagon NPU 性能提升 37%,每瓦特性能提升 16%,支持每秒 220 tokens 的生成速度,可本地运行 70 亿参数的大语言模型。
1.2 全球 NPU 市场竞争格局
当前全球 NPU 市场呈现出高度集中化的竞争格局。根据 2024 年中国市场相关收入统计,英伟达以 66.7% 的市场份额位居 AI 推理芯片市场第一,华为以 12% 的份额排名第二,而在 NPU 驱动的 AI 推理芯片细分市场中,华为以 74.9% 的份额占据绝对主导地位,云天励飞以 1.9% 的份额位列第二。
从企业分布来看,全球 NPU 产业形成了跨国科技巨头主导、本土创新企业崛起的格局。跨国企业包括 NVIDIA、Intel、Qualcomm、Google、Apple、Samsung 等,专业厂商涵盖 AMD、NXP、STMicroelectronics、Kneron 等,而中国本土企业则以华为海思、寒武纪、地平线为代表,爱芯元智、燧原科技、昆仑万维等创新力量也在加速布局。
在技术路线方面,不同企业选择了差异化的发展策略。华为昇腾采用专用集成电路架构,专为处理 AI 神经网络计算任务设计,与英伟达基于通用集成集成电路设计的 GPU 形成鲜明对比。高通 Hexagon则基于其在智能手机中应用多年的技术进行 "放大和扩展",推出了面向数据中心的 AI200 和 AI250 芯片。苹果 M 系列则通过在 GPU 核心中集成神经加速器,实现了 CPU、GPU、神经引擎的 "三芯联动"。
1.3 主要研发企业技术定位
在全球 NPU 技术竞争中,各企业基于自身技术优势和市场定位形成了差异化的发展路径。NVIDIA作为 AI 计算领域的绝对领导者,其 Blackwell 架构集成 2080 亿个晶体管,采用台积电 4NP 工艺,通过第五代 Tensor Core 和第二代 Transformer 引擎,为密集型和稀疏型 AI 工作负载提供更高的吞吐量与更低的延迟。
华为在 NPU 领域展现出强劲的技术实力,其昇腾系列芯片基于达芬奇架构,采用一年一代的迭代策略。昇腾 910C 基于 SIMD 架构,算力高达 800TFLOPS(FP16),支持 FP32/HF32/FP16/BF16/INT8 等数据格式,互联带宽 784GB/s。更重要的是,华为公布了清晰的三年发展路线图,计划在 2026 年推出昇腾 950 系列,2027 年推出昇腾 960,2028 年推出昇腾 970。
苹果在 NPU 技术方面实现了重要突破,其 M5 芯片采用第三代 3 纳米工艺,引入了革命性的下一代 10 核 GPU 架构,每个核心都集成了神经加速器,使基于 GPU 的 AI 工作负载运行速度大幅提升,AI 性能较 M4 提升超 4 倍,较 M1 提升超 6 倍。
高通在移动 NPU 领域保持领先地位,其 Hexagon NPU 架构经历了多代演进,从 2007 年首款 Hexagon DSP 发展到 2020 年骁龙 888 中的全新架构,实现了里程碑式的转折。最新的第五代骁龙 8 至尊版集成的 Hexagon NPU 性能提升 37%,配备 12 个标量加速器、8 个向量加速器及 1 个速度更快的张量加速器,采用全新 64 位内存架构。
二、NPU 技术代际演进分析
2.1 第一代 NPU:早期探索期(2010-2015 年)
第一代 NPU 的发展标志着AI 专用处理器的萌芽阶段。这一时期的 NPU 主要以嵌入式 IP 形式存在,算力水平较低,通常低于 1 TOPS,主要用于简单的机器学习任务,如手机图像降噪等基础应用。2007 年,高通发布了首款 Hexagon DSP,其控制和标量架构成为未来 NPU 代际发展的基础,这可以被视为 NPU 技术发展的重要起点。
在这一阶段,NPU 技术的主要特征是固定功能设计,缺乏可编程性。早期的 NPU 架构相对简单,主要针对特定的神经网络模型进行优化,如 AlexNet 改进版本 VGG16 等 CNN 架构。设计理念上,这一代 NPU 更接近于用电路对生物神经细胞进行模拟,试图在硬件层面实现神经网络的基本功能。
值得注意的是,2010-2015 年也是ARM 等厂商开始布局 NPU IP的关键时期。ARM 推出了 ML 处理器等嵌入式 IP 解决方案,为后续 NPU 技术的普及奠定了基础。这一阶段虽然算力有限,但为 NPU 技术的后续发展积累了宝贵的设计经验和技术基础。
2.2 第二代 NPU:独立崛起期(2016-2020 年)
第二代 NPU 的发展迎来了从实验室走向商业化的关键转折。2016 年成为中国 NPU 技术发展的重要节点,中星微发布了中国首款嵌入式神经网络处理器芯片 "星光智能一号",并于 2016 年 3 月实现量产。随后,中科院旗下的寒武纪科技推出了第一代 NPU 产品寒武纪 1A,被应用于华为麒麟 970 芯片中,标志着 NPU 开始在智能手机等终端设备中大规模应用。
2017 年成为 NPU 商业化的关键节点,华为率先将 NPU 处理器集成到手机 CPU 中,显著提升了 CPU 单位时间计算的数据量和单位功耗下的 AI 算力。这一创新不仅推动了手机 AI 功能的普及,也为整个 NPU 产业的发展提供了重要的市场验证。
在技术架构方面,第二代 NPU 实现了从固定功能向可编程架构的重要转变。早期 NPU(如 Google TPUv1)只支持固定算子,而现代 NPU 开始支持张量中间表示(IR)和微指令集架构(ISA),能够运行更多样化的模型结构。这一技术进步使得 NPU 能够适应不断发展的 AI 算法需求,从 CNN 扩展到 RNN、LSTM 等复杂架构。
2019 年,技术创新进一步加速。华为发布了 7nm 制程的麒麟 810 芯片,采用自主研发的达芬奇架构 NPU;阿里巴巴在云栖大会上发布了含光 800 芯片,这是一款采用 ASIC 技术的高性能云端推理 AI 芯片。这些产品的发布标志着 NPU 技术已经从概念验证阶段进入了大规模商业化应用阶段。
2.3 第三代 NPU:高性能集成期(2021-2024 年)
第三代 NPU 的发展特征是异构融合与性能跃升。这一阶段形成了 CPU+GPU+NPU 的异构计算平台,如英伟达 DGX 系列等高端服务器解决方案。NPU 不再作为独立的处理器存在,而是与 CPU、GPU 深度集成,形成了统一的计算架构,实现了算力资源的动态调度和高效协同。
在移动平台方面,2020 年高通骁龙 888 中的全新架构 Hexagon NPU 成为里程碑式的转折,在之后的三代骁龙 8 中持续迭代演进,AI 性能、效能和应用范围不断拓展。这一时期的 NPU 架构更新融合了标量、向量和张量加速器,提升了性能和能效,并打造了专用的大共享内存系统。
在 PC 和服务器领域,2023 年英特尔发布了首个内置 AI 加速引擎 NPU 的第 14 代酷睿 Ultra 移动处理器,这是首款基于 Intel 4 制程工艺的产品。英特尔表示,2024 年将有 230 多款机型搭载酷睿 Ultra,标志着 NPU 技术在 PC 领域的大规模普及。
第三代 NPU 的另一个重要特征是功耗优化与性能平衡的提升。以高通为例,第二代骁龙 8 中的 NPU 引入了专用电源传输通道、微切片推理、本地 4 位整数运算等创新技术;第三代骁龙 8 中的 NPU 性能提升 98%,能效提升 40%,通过升级微架构和优化内存带宽实现了显著的性能改进。
2.4 第四代 NPU:专用架构期(2024 年至今)
第四代 NPU 的发展标志着向大模型时代的全面迈进。这一阶段的核心特征是针对大模型推理进行专门优化,算力密度预计以年均 45% 的速度提升,3nm 以下制程推动 TOPS/mm² 指标从当前 0.8 提升至 3.5。
在技术架构方面,最新一代 NPU 呈现出几个重要趋势。首先是Chiplet 技术的广泛应用,2026 年这一技术将成为主流架构路径,AMD 的 MI350X 系列与华为昇腾 920 均采用多芯粒互连方案,借助 UCIe 标准实现高带宽低延迟通信,单芯片算力突破 500TOPS,同时制造成本下降约 18%。
其次是制程工艺的持续进步。台积电、三星与英特尔已相继推进 3 纳米及以下节点量产,2 纳米工艺预计在 2025 年实现初步商用,1.4 纳米节点则有望在 2028 年前后进入试产阶段。这些先进制程的应用显著提升了 NPU 的性能密度和能效比。
第三是架构创新的多样化。苹果 M5 芯片实现了突破性创新,采用第三代 3 纳米工艺,引入下一代 10 核 GPU 架构,每个核心都集成了神经加速器,使基于 GPU 的 AI 工作负载运行速度大幅提升,AI 性能较 M4 提升超 4 倍。这种设计理念开创了 NPU 集成的新模式,将神经加速器直接嵌入到 GPU 核心中。
在性能指标方面,第四代 NPU 实现了质的飞跃。NVIDIA Blackwell Ultra 集成 2080 亿个晶体管,采用台积电 4NP 工艺,实现 15 PetaFLOPS 的 NVFP4 计算性能,配备 288GB HBM3e 内存,内存带宽达到 8TB/s。华为昇腾 950 系列的算力达到 1 PFLOPS(FP8)/2 PFLOPS(FP4),互联带宽提升至 2TB/s,较昇腾 910C 增长 2.5 倍。
2.5 代际演进规律与技术趋势
通过对 NPU 技术代际演进的系统分析,可以总结出以下重要规律:
算力提升规律:NPU 算力呈现指数级增长趋势。从第一代的低于 1 TOPS 发展到第四代的数百甚至数千 TOPS,算力提升了数百倍。特别是进入第四代后,算力密度预计以年均 45% 的速度提升,这一增长速度远超摩尔定律。
架构演进路径:NPU 架构经历了从固定功能到可编程、从独立处理器到异构集成、从通用架构到专用优化的发展历程。现代 NPU 已经从单纯的推理加速器演变为支持多种 AI 工作负载的通用计算平台,能够适应 CNN、Transformer、大语言模型等多样化的算法需求。
能效比优化趋势:随着制程工艺的进步和架构设计的优化,NPU 的能效比持续提升。例如,高通第五代骁龙 8 的 Hexagon NPU 在性能提升 37% 的同时,每瓦特性能提升 16%。这种能效比的提升对于移动设备和边缘计算应用具有重要意义。
应用场景拓展:NPU 的应用场景从最初的图像识别、语音处理等简单任务,扩展到现在的大语言模型推理、多模态 AI 应用、自动驾驶等复杂场景。特别是在端侧 AI 推理领域,NPU 已经成为不可或缺的核心组件。
三、按企业分类的 NPU 架构详解
3.1 NVIDIA:GPU 架构的 NPU 演进
3.1.1 第一代:Tesla 架构与早期探索(2010-2015 年)
NVIDIA 在 NPU 领域的早期探索主要集中在 GPU 架构的 AI 计算能力提升上。虽然这一时期 NVIDIA 尚未推出专门的 NPU 产品,但其 GPU 已经开始承担 AI 计算任务。2010-2015 年期间,NVIDIA 的 Tesla 系列 GPU 主要用于科学计算和早期的深度学习研究,为后续的 NPU 技术发展奠定了基础。
3.1.2 第二代:Volta 架构与 Tensor Core 诞生(2017-2018 年)
NVIDIA 在 Volta 架构中首次引入了Tensor Core,这一创新彻底改变了 GPU 在深度学习领域的计算能力。Volta 架构的 Tensor Core 配备 8 线程 MMA(矩阵乘积累加)单元,支持用于训练的 FP16 和 FP32 累加,标志着 NVIDIA 正式进入 AI 专用计算领域。这一技术突破使得 GPU 能够直接对小矩阵进行操作,通过单条指令完成矩阵乘积累加运算,大幅提升了 AI 计算效率。
3.1.3 第三代:Ampere 与 Hopper 架构的演进(2020-2022 年)
Ampere 架构实现了重要的技术升级,支持全 warp 范围的 MMA 运算,引入了 BF16 和 TensorFloat-32 格式,进一步提升了 AI 计算的精度和效率。而 Hopper 架构则采用了 128 线程的 Warp 组 MMA 架构,配备支持 FP8 的 Transformer 引擎,为大模型训练提供了更强大的支持。
在产品层面,NVIDIA 推出了多个重要型号。A100作为 Ampere 架构的旗舰产品,在 AI 训练和推理任务中展现出卓越性能。H100则是 Hopper 架构的代表,配备 80GB HBM2e 内存,内存带宽达到 3.35 TB/s,成为数据中心 AI 计算的标准配置。
3.1.4 第四代:Blackwell 架构的革命性突破(2024 年至今)
Blackwell 架构代表了 NVIDIA 在 AI 计算领域的最新技术巅峰。2025 年 11 月 6 日,NVIDIA 正式宣布 Blackwell 架构全面投产,这款搭载 2080 亿晶体管、采用台积电 4NP 工艺的 AI 超级芯片,将生成式 AI 的推理性能提升至 Hopper 系统的 65 倍。
Blackwell Ultra作为该架构的旗舰产品,具有以下关键特性:
| 技术指标 | 规格参数 |
|---|---|
| 晶体管数量 | 2080 亿个 |
| 制程工艺 | 台积电 4NP |
| 计算性能 | 15 PetaFLOPS(NVFP4) |
| 内存容量 | 288 GB HBM3e |
| 内存带宽 | 8 TB/s |
| NVLink 带宽 | 1.8 TB/s(双向) |
| 最大功耗 | 1400W |
Blackwell Ultra 采用双光栅设计,由两个晶片级模块组成,通过 NVIDIA 高带宽接口(NV-HBI)连接,提供高达 10 TB/s 的带宽。该架构集成 160 个流处理器(SM),配备 640 个第五代 Tensor Core,支持 FP8、FP6 和 NVFP4 精度,并搭载第二代 Transformer 引擎。
在内存系统方面,Blackwell Ultra 配备 288GB HBM3e 内存,内存容量是 H100 的 3.6 倍,内存带宽达到 8TB/s,相较 H100 的 3.35TB/s 提升 2.4 倍。这一内存容量对于支持万亿参数模型、在不卸载 KV 缓存的情况下扩展上下文长度至关重要。
3.1.5 平台覆盖与产品系列
NVIDIA 的 NPU 架构覆盖了从桌面到数据中心的全系列平台:
桌面平台:包括 GeForce RTX 40 系列,如 RTX 4090(16384 个 CUDA 核心,24GB GDDR6X 显存)、RTX 4080(9728 个 CUDA 核心,16GB GDDR6X 显存)等,主要面向游戏和内容创作领域。
数据中心平台:以 H100、H200、Blackwell 系列为代表,专为大规模 AI 训练和推理设计。其中,GB300 NVL72 机架级系统集成 36 个 Grace Blackwell 超级芯片,可提供高达 1.1 exaFLOPS 的密集型 FP4 计算性能,相比 Hopper 平台,AI 工厂输出能力提升达 50 倍。
边缘计算平台:包括 Jetson 系列,如 Jetson AGX Orin、Jetson AGX Xavier 等,专为边缘 AI 应用设计,提供从数十 TOPS 到数百 TOPS 的算力选择。
3.2 高通:Hexagon NPU 的移动 AI 之路
3.2.1 早期发展:从 DSP 到 NPU 的演进(2007-2015 年)
高通的 NPU 技术发展可以追溯到 2007 年,首款 Hexagon DSP 在 Snapdragon 平台上发布,其 DSP 控制和标量架构成为未来 NPU 代际发展的基础。2015 年,Snapdragon 820 处理器发布,首次集成了高通 AI Engine,支持图像、音频和传感器运算,集成了标量和向量运算能力。
3.2.2 架构突破:新一代 Hexagon NPU(2020 年至今)
2020 年骁龙 888 中的全新架构 Hexagon NPU 堪称里程碑式转折,标志着高通 NPU 技术进入了全新阶段。这一架构在之后的三代骁龙 8 中持续迭代演进,AI 性能、效能和应用范围不断拓展。
Hexagon NPU 架构的核心特征包括:
- 融合架构设计:融合标量、向量和张量加速器,提升性能和能效
- 专用大共享内存:打造统一的内存系统,减少数据搬移开销
- 微切片推理:支持更精细的计算粒度,提升能效
- 本地 4 位整数运算:降低计算复杂度,提升推理速度
3.2.3 代际产品详解
高通 Hexagon NPU 的代际产品发展如下:
| 产品代际 | 代表型号 | 发布时间 | 主要特征 |
|---|---|---|---|
| 第一代 | Snapdragon 820 | 2015 年 | 首次集成 AI Engine,支持基础 AI 运算 |
| 第二代 | Snapdragon 888 | 2020 年 | 全新架构,融合标量、向量和张量加速器 |
| 第三代 | Snapdragon 8 Gen 2 | 2022 年 | 性能提升 98%,能效提升 40% |
| 第四代 | Snapdragon 8 Gen 4 | 2024 年 | AI 性能提升 44%,共享内存翻倍 |
| 第五代 | Snapdragon 8 Gen 5 | 2025 年 | 性能提升 37%,支持每秒 220 tokens |
Snapdragon 8 Gen 4集成的 Hexagon NPU 实现了显著提升,AI 引擎性能较前代提升 44%,共享内存翻倍且带宽提升,支持 INT4/INT8 精度,可运行多模态、多语言 AI 助手及多种大语言模型(LLM)、视觉语言模型(LVM)。
Snapdragon 8 Gen 5(第五代骁龙 8)的 Hexagon NPU 迎来重大升级,运算速度提升 37%,支持每秒 220 tokens 的生成速度,可本地运行参数量达 70 亿的大语言模型。其新增的 INT2/FP8 精度运算与 Arm SME 硬件加速功能,使 AI 推理效率大幅提升。
3.2.4 技术创新与升级点
高通 Hexagon NPU 的技术创新主要体现在以下几个方面:
架构优化:最新的 Hexagon NPU 配备 12 个标量加速器、8 个向量加速器及 1 个速度更快的张量加速器,采用全新 64 位内存架构,实现 37% 的性能提升与 16% 的每瓦特性能优化。
精度支持扩展:从最初的 INT8 扩展到支持 INT4、INT2、FP8 等多种精度格式,在保持精度的同时大幅提升计算效率。
专用功能单元:高通首次引入双 Micro NPU 传感器中枢,通过语音、运动轨迹等数据生成个人知识图谱,结合终端侧持续学习技术,可实现跨应用主动推荐与情境化提示。
3.2.5 平台覆盖与应用场景
高通 Hexagon NPU 主要覆盖移动平台,包括:
旗舰平台:骁龙 8 系列,如骁龙 8 Gen 5、骁龙 8 Gen 4 等,面向高端智能手机市场。
中端平台:骁龙 7 系列,如骁龙 7 Gen 4,AI 运算效能暴增 65%,突破性地实现本地运行 Stable Diffusion 1.5 的能力。
入门级平台:骁龙 4 系列等,为中低端市场提供基础 AI 能力。
3.3 苹果:Neural Engine 的创新之路
3.3.1 M 系列芯片的 NPU 演进
苹果在 NPU 技术方面实现了独特的创新突破。2025 年 10 月 15 日发布的M5 芯片作为 Apple Silicon 家族的第五代产品,采用第三代 3 纳米工艺,引入了革命性的下一代 10 核 GPU 架构,每个核心都集成了神经加速器,使基于 GPU 的 AI 工作负载运行速度大幅提升,AI 性能较 M4 提升超 4 倍,较 M1 提升超 6 倍。
3.3.2 M5 芯片的技术规格
M5 芯片的关键技术规格如下:
| 技术指标 | 规格参数 |
|---|---|
| 制程工艺 | 第三代 3 纳米 |
| CPU 架构 | 10 核(6 个能效核心 + 4 个性能核心) |
| GPU 架构 | 10 核,每个核心集成神经加速器 |
| 神经引擎 | 16 核 |
| 统一内存带宽 | 153GB/s |
| 内存容量 | 最高 32GB |
M5 芯片的核心创新在于其GPU 内置神经加速器设计。下一代 GPU 架构使芯片的每个计算块都针对 AI 进行了优化,10 核 GPU 的每个核心都配备专用的神经加速器,实现了 CPU、GPU、神经引擎的 "三芯联动"。
在性能表现方面,M5 的 GPU 图形性能较 M4 提升高达 45%,支持第三代光线追踪技术。同时,统一内存带宽提升近 30% 至 153GB/s,较 M1 提升超过 2 倍,这为运行更大的 AI 模型提供了充足的内存支持。
3.3.3 A 系列芯片的 NPU 发展
苹果的 A 系列芯片同样在 NPU 技术方面持续创新。虽然具体规格信息有限,但根据市场分析,A 系列芯片专注于手机端的能效平衡,近年来与 M 系列的差距逐渐拉大,同时面临安卓旗舰芯片(如骁龙 8 至尊版、天玑 9400)的追赶压力。
3.3.4 技术特点与应用优势
苹果 NPU 技术的主要特点包括:
统一内存架构:M 系列芯片采用统一内存架构,CPU、GPU 和神经引擎共享同一内存池,避免了数据在不同内存之间的搬移,大幅提升了 AI 计算效率。
软件生态整合:苹果的 NPU 技术深度整合在 Core ML、Metal Performance Shaders 等软件框架中,开发者可以通过简单的 API 调用充分利用 NPU 的计算能力。
能效优化:苹果在能效优化方面表现出色,M5 芯片在提供强大 AI 性能的同时,保持了优秀的功耗控制,特别适合移动和便携式设备。
3.3.5 平台覆盖
苹果的 NPU 技术主要覆盖以下平台:
Mac 平台:包括 MacBook Pro、MacBook Air、Mac mini、iMac 等全系列产品。
iPad 平台:iPad Pro、iPad Air 等产品,充分发挥 NPU 在移动创作和 AI 应用中的优势。
Apple Vision Pro:作为最新的空间计算设备,M5 芯片为其提供了强大的 AI 计算能力,支持实时空间感知和手势识别。
3.4 华为:昇腾系列的自主创新
3.4.1 达芬奇架构的技术基础
华为昇腾芯片基于自主研发的达芬奇架构,这是一种专门为 AI 计算设计的专用集成电路架构,与英伟达基于通用集成集成电路设计的 GPU 形成鲜明对比。达芬奇架构采用了独特的 3D Cube 计算模式,通过矩阵运算优化,实现了更高的计算效率和能效比。
3.4.2 昇腾 910 系列的技术规格
华为昇腾系列芯片的发展经历了多个重要阶段:
昇腾 910A作为初始版本,奠定了达芬奇架构的技术基础。
昇腾 910B进行了架构优化,提升了能效比。芯片尺寸为 21.32mm×31.22mm,FP16 算力约 320TFLOPS,INT8 算力约 640TOPS,配备 64GB HBM2e 显存,显存带宽 400GB/s。
昇腾 910C采用两颗 910B 芯片合封设计,主要定位为中大型 AI 集群的算力基座,支撑千亿参数级大模型的训练与推理任务。昇腾 910C 基于 SIMD 架构,算力高达 800TFLOPS(FP16),支持 FP32/HF32/FP16/BF16/INT8 等数据格式,互联带宽 784GB/s,HBM 容量为 128GB,内存带宽为 3.2TB/s。
根据市场信息,昇腾 910C 于 2024 年四季度推出样片,2025 年一季度开始量产,目前已经处于大规模出货阶段,全年销量预计在 70-80 万颗。
3.4.3 昇腾 950/960/970 系列的技术路线图
华为公布了清晰的三年发展路线图,展现了强大的技术规划能力:
| 产品型号 | 发布时间 | 算力规格 | 主要特征 |
|---|---|---|---|
| 昇腾 950PR | 2026 年 Q1 | 1 PFLOPS(FP8)/2 PFLOPS(FP4) | SIMD/SIMT 架构,互联带宽 2TB/s |
| 昇腾 950DT | 2026 年 Q4 | 同 950PR | 与 950PR 共 Die 设计 |
| 昇腾 960 | 2027 年 Q4 | 2 PFLOPS(FP8)/4 PFLOPS(FP4) | 全面翻倍,支持 HiF4 格式 |
| 昇腾 970 | 2028 年 Q4 | 4 PFLOPS(FP8)/8 PFLOPS(FP4) | 算力翻倍 + 带宽优化 |
昇腾 950 系列的技术突破包括:
- 架构升级:微架构升级为 SIMD/SIMT,提升并行计算能力
- 算力提升:达到 1 PFLOPS(FP8)/2 PFLOPS(FP4)
- 精度支持:新增支持 FP8/MXFP8/HiF8/MXFP4/HiF4 等数据格式
- 互联带宽:提升至 2TB/s,较昇腾 910C 增长 2.5 倍
- 内存技术:支持华为自研 HBM 高带宽内存,分为 HiBL 1.0 和 HiZQ 2.0 两个版本
昇腾 960将实现全面翻倍的跨代跃升,在 950 基础上实现算力 ×2、内存容量 ×2、内存带宽 ×2、互联端口 ×2。同时,算力达到 2PFLOPS(FP8)/4PFLOPS(FP4),内存带宽提升至 9.6TB/s,新增支持华为自研 HiF4 数据格式,在 4bit 精度实现上达到 "业界最优",并首次支持光子计算芯片技术验证。
3.4.4 技术创新与竞争优势
华为昇腾系列的技术创新主要体现在:
架构创新:从 SIMD 架构升级到 SIMD/SIMT 混合架构,提升了计算灵活性和效率。
精度支持:支持从 FP32 到 FP4 的全精度范围,特别是在低精度计算方面实现了业界领先的性能。
互连技术:采用超节点集群技术,950 系列互联带宽达到 2TB/s,970 系列将提升到 4TB/s,支持构建百万卡级算力集群。
生态建设:华为构建了完整的 AI 计算生态,包括 CANN 芯片架构、MindSpore AI 框架等,形成了软硬件协同优化的技术体系。
3.4.5 平台覆盖与应用场景
华为昇腾系列主要覆盖以下平台:
数据中心平台:昇腾 910 系列主要用于 AI 训练和推理服务器,支撑大规模 AI 集群。
边缘计算平台:昇腾 310 系列面向边缘 AI 应用,提供从数十 TOPS 到数百 TOPS 的算力选择。
行业解决方案:广泛应用于智慧城市、智能制造、自动驾驶、医疗 AI 等领域。
3.5 Google:TPU 的云端 AI 之路
3.5.1 TPU 技术发展历程
Google 的 TPU(Tensor Processing Unit)代表了云端 AI 专用处理器的最高水平。从 2015 年推出第一代 TPU 开始,Google 持续推动 TPU 技术的演进,每一代产品都在性能、能效和功能方面实现重大突破。
3.5.2 TPU v5 系列的技术特征
TPU v5 系列包括两个版本:**TPU v5e(Efficiency)** 针对主流推理、微调和中小型训练负载设计;**TPU v5p(Performance)** 是训练谷歌 Gemini 1.0 模型所使用的核心系统。TPU v5p 于 2023 年推出,每 Pod 包含 8960 个芯片,单芯片配备 95GB HBM 内存,算力达到 459 TFLOPS。
3.5.3 TPU v6 Trillium 的技术突破
TPU v6代号 Trillium,于 2024 年 5 月发布,同年 10 月提供预览。这一代产品实现了巨大的性能飞跃,单芯片算力达到 918TFLOPS 和 1836TOPS(Int8),采用 3 纳米工艺,单芯片峰值算力较 v5e 提升 4.7 倍,HBM 容量和带宽翻倍,能效比提升 67%。
TPU v6 的技术特点包括:
- 制程工艺:采用 3 纳米工艺,实现了更高的集成度和能效比
- 性能提升:单芯片算力达到 918TFLOPS,是 v5e 的 4.7 倍
- 内存系统:HBM 容量和带宽翻倍,支持更大规模的模型训练
- 能效优化:能效比提升 67%,在相同功耗下提供更高的计算性能
TPU v6 Pod 由 512 个芯片组成,提供 1.5 ExaFlops 峰值性能,较前代提升 83%,并通过 ICI 链路直连降低通信延迟,支持训练 Gemini 2.0 等千亿参数模型。
3.5.4 TPU v7 Ironwood 的最新突破
2025 年 11 月,Google 发布了第七代 TPU Ironwood,这是其首款专为 AI 推理设计的定制加速器,也是迄今为止性能最高、可扩展性最强的 TPU。
Ironwood 的性能提升令人瞩目:
- 与 TPU v5p 相比,峰值性能提升至 10 倍
- 与 TPU v6e 相比,单芯片在训练和推理工作负载下的性能均提升至 4 倍以上
- 将于 2025 年 11 月正式商用
3.5.5 技术演进趋势
Google TPU 的技术演进呈现以下趋势:
制程工艺进步:从早期的 16nm 发展到 3nm 工艺,持续提升集成度和能效。
架构优化:从固定功能向可编程架构演进,支持更多样化的 AI 工作负载。
系统集成:通过 Pod 系统实现大规模集群,提供 ExaFlops 级别的算力。
推理优化:最新的 Ironwood 专门针对推理优化,体现了从训练向推理倾斜的技术趋势。
3.6 Intel:从 GPU 到 NPU 的转型之路
3.6.1 Habana Gaudi 系列的技术基础
Intel 通过收购 Habana Labs 进入 AI 加速器市场,推出了 Gaudi 系列 AI 训练处理器。Gaudi 系列基于异构架构,包含完全可编程的张量处理核心(TPC)集群、相关开发工具和库,以及可配置的矩阵数学引擎。
以Gaudi 2为例,其技术规格如下:
- 制程工艺:台积电 7nm 工艺
- 核心配置:集成 24 个可编程的 Tensor 张量核心(TPC)
- 缓存:48MB SRAM
- 接口:21 个 10 万兆内部互连以太网接口(ROCEv2 RDMA)
- 内存:96GB HBM2E 高带宽内存(总带宽 2.4TB/s)
- 最高功耗:800W
3.6.2 Gaudi 3 的技术升级
Gaudi 3于 2024 年发布,计划 2025 年下半年上市,是 Intel standalone AI 芯片系列的最后一款产品。Gaudi 3 在技术上实现了多项升级:
- 性能提升:相比 Gaudi 2 实现显著性能提升
- 架构优化:进一步优化了 TPC 架构,提升了计算效率
- 生态支持:全面支持 PyTorch、TensorFlow 等主流 AI 框架
3.6.3 Intel NPU 在客户端的布局
Intel 在客户端 NPU 方面也取得了重要进展。2023 年推出的第 14 代酷睿 Ultra 移动处理器集成了首个内置 AI 加速引擎 NPU,这是首款基于 Intel 4 制程工艺的产品。2024 年,有 230 多款机型搭载酷睿 Ultra,标志着 NPU 在 PC 领域的大规模普及。
Intel NPU 的发展呈现快速迭代的特点:
- 2023 年推出的 NPU3 是 Intel 第一代真正意义上的 NPU 产品
- 2024 年的 NPU4 达到 48TOPS 的峰值 AI 性能,是前代的约 4 倍
3.6.4 技术整合与未来规划
值得注意的是,Intel 的新路线图将 Gaudi 的某些方面整合到 Xe GPU 产品线中,推出了名为 Falcon Shores 的产品,同时将 Habana 设计纳入 OneAPI 软件框架下。这一战略调整反映了 Intel 在 AI 加速器市场的重新定位。
3.6.5 平台覆盖
Intel 的 NPU 技术覆盖了多个平台:
数据中心平台:Gaudi 系列主要面向 AI 训练服务器,提供高性能计算能力。
客户端平台:第 14 代及后续酷睿处理器集成 NPU,为 PC 和笔记本电脑提供 AI 加速能力。
边缘计算平台:通过集成 NPU 的处理器为边缘设备提供 AI 推理能力。
3.7 AMD:CDNA 架构的 AI 探索
3.7.1 CDNA 架构的技术特点
AMD 在 AI 加速器领域采用了基于CDNA(Compute DNA)架构的策略,专门为 AI 和 HPC 工作负载设计。CDNA 架构与 AMD 传统的 RDNA 架构不同,它针对大规模并行计算进行了优化,特别适合 AI 训练和推理任务。
3.7.2 MI300 系列的技术规格
AMD 的 MI300 系列代表了其在 AI 加速器领域的最新技术水平。以MI300X为例,其主要规格包括:
- 制程工艺:台积电 5nm 工艺
- 内存配置:192GB HBM2e
- 内存带宽:5.7TB/s
- 计算性能:826 TFLOPS(FP16)
3.7.3 MI350 系列的重大突破
2025 年 6 月发布的MI350 系列基于 CDNA 4 架构,实现了重大技术突破:
| 产品型号 | 发布时间 | 技术特点 |
|---|---|---|
| MI325X | 2024 年 Q4 | 过渡产品,为 MI350 系列做准备 |
| MI350X | 2025 年 | CDNA 4 架构,1000W 功耗,风冷设计 |
| MI355X | 2025 年 | CDNA 4 架构,1400W 功耗,液冷设计 |
MI350 系列的关键技术特征:
- 制程工艺:采用台积电 3nm 和 6nm FinFET 混合工艺
- 计算性能:MI355X 达到 10.1 PetaFLOPS(MXFP4/MXFP6)
- 内存系统:288GB HBM3e 内存,8TB/s 内存带宽
- 性能提升:相比 MI300 系列,AI 计算性能提升 4 倍,推理性能提升 35 倍
MI355X 的详细规格如下:
- 流处理器:16,384 个
- 矩阵核心:1024 个
- 计算单元:256 个
- 峰值频率:2400 MHz
- 功耗:1400W(TBP)
3.7.4 MI400 系列的未来展望
AMD 预览了计划于 2026 年推出的MI400 系列,这将代表性能的巨大飞跃:
- 内存容量:高达 432GB HBM4
- 内存带宽:19.6TB/s
- 计算性能:40 PF(FP4)和 20 PF(FP8)
- 扩展带宽:300GB/s
同时,AMD 还展示了 "Helios" AI 机架参考设计,计划于 2026 年推出,集成 MI400 系列 GPU、EPYC "Venice" CPU 和 Pensando "Vulcano" AI NIC,支持高达 72 个 MI400 系列 GPU 的紧密耦合扩展域,扩展带宽达 260TB/s。
3.7.5 软件生态建设
AMD 在软件生态方面也取得了重要进展。推出的ROCm 7.0相比 6.0 版本,推理性能提升 4 倍,训练性能提升 3 倍,支持 vLLM、SGLang 等开源框架,为开发者提供了完善的软件工具链。
3.8 联发科:天玑系列的 AI 创新
3.8.1 天玑 9400 的技术特点
联发科天玑 9400 作为旗舰 5G 智能体 AI 芯片,采用第二代创新全大核 CPU 架构,集成了先进的智能体化 AI 能力、光线追踪图形效果、高品质专业影像以及杰出的无线通信技术,支持折叠屏形态的终端设备。
天玑 9400 的关键技术规格:
- CPU 架构:1 个 3.626GHz Cortex-X925 超大核、3 个 3.3GHz Cortex-X4 超大核与 4 个 2.4GHz Cortex-A720 大核
- GPU:12 核 GPU G925
- NPU:第八代 AI 处理器 NPU890
- 端侧多模态 AI 运算性能:可达 50 Tokens / 秒
3.8.2 天玑 9500 的重大突破
2025 年 9 月 22 日发布的天玑 9500实现了重大技术突破,采用台积电第三代 3nm 制程,集成了全面焕新的全大核 CPU、GPU、NPU 和 ISP 影像处理器。
天玑 9500 的核心技术创新:
- CPU 架构:采用全新 C1 系列 CPU,包括 1 颗 C1-Ultra 超大核(主频 4.21GHz,2MB L2 缓存)、3 颗 C1-Premium 超大核(主频 3.5GHz,1MB L2 缓存)、4 颗 C1-Pro 大核(2.7GHz,512KB L2 缓存)
- GPU:延续 12 核 G1 Ultra 配置
- NPU:集成超性能 AI 处理器 NPU 990,性能较上一代翻倍提升
- 制程工艺:台积电第三代 3nm(N3P),300 亿晶体管
天玑 9500 在性能方面实现了显著提升:
- CPU 单核实测提升 27.5%,多核提升接近 20%
- GPU 性能提升 26% 和 36%
- AI 性能提升 124%
- 光线追踪性能暴涨 221%
3.8.3 NPU 架构创新
天玑 9500 搭载的NPU 990专注于智能体与低功耗推理,采用超性能与超能效双 NPU 设计,峰值性能提升 111%,功耗却降低 56%。这种设计理念体现了联发科在能效优化方面的技术实力。
3.8.4 技术优势与市场定位
联发科天玑系列的技术优势包括:
架构创新:采用全大核设计,打破了传统的大小核架构,提供更均衡的性能表现。
AI 能力:端侧 AI 性能达到行业领先水平,支持智能体 AI 和生成式 AI 应用。
能效优化:在提升性能的同时实现了功耗的降低,体现了先进的设计理念。
3.8.5 平台覆盖
联发科天玑系列主要覆盖移动平台:
- 旗舰系列:天玑 9000/9400/9500 系列,面向高端智能手机
- 中端系列:天玑 8000/8300 系列,提供均衡的性能和功耗
- 入门系列:天玑 7000 系列,为中低端市场提供基础 AI 能力
3.9 其他重要 NPU 厂商
3.9.1 地平线:征程系列的自动驾驶之路
地平线作为中国领先的智能驾驶芯片企业,其征程系列 NPU 专门为自动驾驶场景设计。2024 年发布的征程 6 系列实现了从单一产品向系列化方案的关键跃迁,推出了六个版本以满足不同市场需求:
| 产品型号 | 目标市场 | 算力 | 主要应用 |
|---|---|---|---|
| 征程 6B | 低阶智驾 | 18 TOPS | 高性价比主动安全一体机 |
| 征程 6L | - | - | 待定 |
| 征程 6E | 高速 NOA | - | 高速领航辅助驾驶 |
| 征程 6M | 中阶智驾 | - | 城区辅助驾驶 |
| 征程 6H | - | - | 待定 |
| 征程 6P | 高阶智驾 | 最高 1000+ TOPS | 全栈智驾计算方案 |
征程 6 系列的技术特点:
- 架构:基于 BPU 纳什架构,支持 Transformer、光流等主流算法
- 性能:计算性能提升两倍以上,智能水平远超同级别产品
- 应用:已在奇瑞、理想等多款主流车型上量产
征程 6 系列的量产进展顺利,面向中阶的征程 6E/M 已在多款主流车型上量产,面向高阶的征程 6P 也已于 2025 年在奇瑞车型首发量产。
3.9.2 寒武纪:思元系列的云端 AI 布局
寒武纪作为中国最早的 AI 芯片企业之一,其思元系列在云端 AI 推理领域占据重要地位。
思元 370 系列的技术特点:
- 采用 Chiplet 技术,是全球首款 Chiplet 技术 AI 芯片
- 实测性能达到主流 GPU 的 2 倍
- 能效比达到行业标杆水平
- 支持 FP8+Int4 混合量化,适配 DeepSeek、GLM-4.6 等主流大模型
- 推理成本降低 30%
思元 590 系列的技术规格:
- 制程工艺:7nm 制程
- 算力参数:FP16 算力 256TFLOPS,INT8 算力 512TOPS
- 性能对标:英伟达 H100,能效比接近 H100 的 70%
- 预计 2026 年量产,将填补国产高端训练芯片的空白
思元 690于 2025 年 6 月发布,采用中芯国际 N+2 工艺(等效台积电 7nm),支持千亿参数大模型训练,实测推理性能较前代提升 200%,并通过中国信通院 DeepSeek 兼容性测试。
3.9.3 瑞芯微:RK3588 系列的边缘 AI 方案
瑞芯微 RK3588 系列在边缘 AI 计算领域表现出色,其技术规格如下:
| 产品型号 | 制程工艺 | NPU 算力 | 主要特点 |
|---|---|---|---|
| RK3588 | 8nm | 6 TOPS | 旗舰级,面向 8K AI 视觉、边缘计算 |
| RK3588M | 8nm | 6 TOPS | 车规级,四核 A76 + 四核 A55 |
| RK3588S | 8nm | 3 TOPS | 低功耗版本,适合嵌入式设备 |
RK3588 系列的技术优势:
- 架构:采用 4×Cortex-A76(2.4GHz)+4×Cortex-A55(1.8GHz)设计
- NPU:内置三核 NPU,支持 INT4/INT8/INT16/FP16 混合运算
- 能效:能效比达 4.6TOPS/W,超越晶晨股份 A311D(2.1TOPS/W)120%
- 功耗:典型功耗 < 10W,支持无风扇散热
RK3588 在实际应用中的表现优异:
- 支持 8 路 1080P 视频结构化分析
- 通过 NPU 运行 LPR 算法,识别准确率从 92% 提升至 98%
- 支持 YOLOv5、ResNet50 等主流模型,推理速度较纯 CPU 方案快 5-10 倍
3.9.4 北京君正:存算一体的技术创新
北京君正在存算一体技术方面实现了重要突破。其X2000 芯片算力达 24TOPS 且功耗仅 1.2W,已导入 DeepSeek 大模型服务器,其 IP Cam SoC 全球排名第三,适配 AIoT 市场需求。
北京君正的技术特点:
- 存算一体架构:通过近数据计算大幅提升能效
- 低功耗设计:在提供 24TOPS 算力的同时功耗仅 1.2W
- 市场应用:主要面向安防监控、AIoT 等领域
四、NPU 平台应用场景分析
4.1 桌面平台:高性能 AI 计算
桌面平台的 NPU 应用主要集中在高性能计算和创作领域。NVIDIA RTX 40 系列GPU 集成了强大的 Tensor Core,为桌面级 AI 应用提供了强劲的算力支持。RTX 4090 配备 16384 个 CUDA 核心和 24GB GDDR6X 显存,FP32 理论算力高达 82.6 TFLOPS,AI 性能达到 1321TOPS。
在实际应用中,桌面 NPU 展现出卓越的性能表现:
- 内容创作:Adobe 2025 版全家桶已深度适配 NPU,使用 Photoshop 的 "生成填充" 扩展图片时,配备 NPU 的 MacBook Pro 比没有 NPU 的 Windows 笔记本快 2.3 倍,且功耗仅为后者的 1/3
- 3D 渲染:Blender 的 AI 降噪功能在搭载高通 Snapdragon X Elite 芯片的轻薄本上能实时处理 3D 渲染噪点,这在两年前还需要 RTX 3060 以上的独立 GPU 才能实现
- AI 训练:桌面 NPU 支持本地模型训练和微调,为开发者提供了便捷的开发环境
4.2 移动平台:端侧 AI 的普及
移动平台是 NPU 应用最为广泛的领域,主要应用场景包括:
智能手机应用:
- 实时图像增强:如华为麒麟芯片的 AI 拍照功能,实现智能场景识别和优化
- 语音助手:支持本地语音识别和自然语言处理,提升响应速度和隐私保护
- AR/VR 交互:为增强现实和虚拟现实应用提供实时计算支持
- 多模态 AI:支持图像、语音、文本的综合处理,实现智能翻译、实时字幕等功能
以高通骁龙平台为例,第五代骁龙 8 的 Hexagon NPU 支持每秒 220 tokens 的生成速度,可本地运行 70 亿参数的大语言模型,实现了端侧生成式 AI 的突破。
功耗控制要求:
移动 NPU 对功耗控制有严格要求,通常需要控制在 0.5-2W 范围内,能效比需达到数百 TOPS/W。这种严格的功耗限制推动了 NPU 架构的持续优化和创新。
4.3 低功耗平台:边缘 AI 计算
低功耗 NPU 平台主要应用于边缘计算场景,具有以下特点:
应用场景:
- 智能摄像头:支持人脸识别、异常行为检测、车牌识别等功能
- 可穿戴设备:如智能手表的心率异常检测、运动姿态识别等健康监测功能
- 智能家居:实现语音控制、场景识别、设备联动等智能化功能
- 工业物联网:用于设备状态监测、质量检测、预测性维护等
技术要求:
- 功耗极低:通常要求功耗在 1W 以下,甚至达到毫瓦级别
- 实时响应:需要在毫秒级内完成 AI 推理任务
- 环境适应性:能够在各种恶劣环境下稳定运行
以瑞芯微 RV1126 为例,该芯片内置 AI NPU,支持 4TOPS 整数运算,可在智能摄像机中实现实时多目标检测,展现了低功耗 NPU 在边缘计算中的应用价值。
4.4 服务器平台:大规模 AI 训练与推理
服务器平台的 NPU 应用代表了 AI 计算的最高水平,主要用于大规模 AI 训练和推理任务:
数据中心应用:
- AI 训练:支持大语言模型、计算机视觉模型等的训练任务
- 推理服务:为云端 AI 服务提供高性能推理支持
- 推荐系统:用于大规模推荐算法和个性化服务
- 图像识别 API:为各类应用提供图像识别和分析服务
技术规格要求:
- 超高算力:通常需要数百甚至数千 TOPS 的算力
- 大内存容量:支持 TB 级别的内存,以处理大规模模型
- 高速互联:需要高速的 GPU 间互联,支持分布式训练
- 低延迟:确保推理服务的实时性要求
华为昇腾 910C 作为数据中心 NPU 的代表,算力高达 800TFLOPS(FP16),支持 FP32/HF32/FP16/BF16/INT8 等多种数据格式,互联带宽 784GB/s,HBM 容量 128GB,内存带宽 3.2TB/s,能够支撑千亿参数级大模型的训练与推理任务。
4.5 自动驾驶平台:车规级 AI 应用
自动驾驶是 NPU 应用的重要领域,对芯片的性能、功耗、可靠性都有极高要求:
应用场景:
- 环境感知:实时识别道路、车辆、行人、交通标志等
- 决策规划:基于感知信息进行路径规划和决策
- 辅助驾驶:实现自适应巡航、车道保持、自动泊车等功能
- 全自动驾驶:支持 L4/L5 级别的完全自动驾驶
技术特点:
- 高实时性:需要在毫秒级内完成复杂的感知和决策任务
- 高可靠性:必须具备车规级的可靠性和安全性
- 低功耗:在保证高性能的同时控制功耗,延长车辆续航
- 环境适应性:能够在各种天气和光照条件下稳定工作
地平线征程 6 系列专为自动驾驶设计,征程 6P 可支持 1000+TOPS 的最高算力,运算能力达到行业领先水平,已在理想、奇瑞等多款车型上实现量产。
4.6 平台性能对比分析
通过对不同平台 NPU 的性能分析,可以看出各平台的特点和优势:
| 平台类型 | 代表产品 | 算力范围 | 功耗特点 | 主要优势 |
|---|---|---|---|---|
| 桌面平台 | NVIDIA RTX 4090 | 1321 TOPS | 350W | 超高算力,支持复杂 AI 任务 |
| 移动平台 | 骁龙 8 Gen 5 | 75 TOPS | 5-10W | 高能效比,支持端侧 AI |
| 低功耗平台 | 瑞芯微 RK3588 | 6 TOPS | <10W | 超低功耗,适合边缘计算 |
| 服务器平台 | 昇腾 910C | 800 TFLOPS | 400W | 超大算力,支撑大模型训练 |
| 自动驾驶平台 | 征程 6P | 1000+ TOPS | 待定 | 车规级可靠性,实时性要求高 |
从能效比角度看,移动和低功耗平台的 NPU 在能效方面表现优异,而桌面和服务器平台则更注重绝对性能。这种差异化的设计理念使得不同平台的 NPU 能够在各自的应用场景中发挥最佳性能。
五、技术发展趋势与前景展望
5.1 算力提升与制程工艺演进
NPU 技术正处于快速发展期,算力提升呈现出指数级增长的趋势。根据行业预测,2025-2030 年期间,NPU 算力预计以年均 45% 的速度提升,这一增长速度远超传统的摩尔定律。
制程工艺的持续进步为算力提升提供了基础支撑:
- 2025 年:3 纳米工艺已实现大规模量产
- 2025 年:2 纳米工艺预计实现初步商用
- 2028 年:1.4 纳米节点有望进入试产阶段
- 制程领先窗口期已缩短至 12-18 个月
这种制程工艺的快速进步推动了 NPU 性能密度的大幅提升。3nm 以下制程将推动 TOPS/mm² 指标从当前的 0.8 提升至 3.5,相比 GPU 的 1.2 有显著优势。
5.2 架构创新与集成化趋势
NPU 架构正在经历深刻的变革,呈现出以下发展趋势:
Chiplet 技术成为主流:2026 年,Chiplet(芯粒)技术将成为主流架构路径。AMD 的 MI350X 系列与华为昇腾 920 均采用多芯粒互连方案,借助 UCIe(Universal Chiplet Interconnect Express)标准实现高带宽低延迟通信,单芯片算力突破 500TOPS,同时制造成本下降约 18%。
异构集成加速发展:SoC 集成化趋势更加明显,通过将 CPU、GPU、NPU、FPGA 等多种计算单元集成在同一芯片上,实现算力资源的动态调度和高效协同。例如,高通骁龙 X Elite 平台整合了 Adreno 740 GPU 与 Hexagon X9 NPU,其低功耗架构使得在 1GHz 时钟频率下仍能维持每秒 4 万次推理运算能力。
架构多样化发展:
- 存算一体架构:2025 年有望实现 816 层 3D 堆叠量产,理论能效优化空间达 35 倍
- 动态稀疏计算:技术成熟度提升,进一步优化计算效率
- 专用化设计:针对特定 AI 工作负载进行专门优化,提升性能和能效
5.3 软件生态与开发工具
NPU 软件生态的完善程度直接影响其应用推广和发展前景:
开发框架优化:
- 主流 AI 框架(PyTorch、TensorFlow)对 NPU 的支持不断增强
- 专用编译器和优化工具持续改进,提升开发效率
- 模型转换工具日益成熟,降低了模型部署门槛
标准化进程:
- ONNX 等开放标准的广泛采用,促进了模型的跨平台迁移
- 统一的 API 接口设计,简化了开发者的学习成本
- 性能基准测试标准的建立,便于不同产品的性能对比
生态合作加强:
- 芯片厂商与软件开发商的合作日益紧密
- 行业联盟和标准化组织推动技术规范的制定
- 开源社区的活跃参与,加速了技术创新和普及
5.4 应用场景拓展与市场前景
NPU 的应用场景正在快速拓展,市场前景广阔:
端侧 AI 成为主流:
- 大模型本地化:NPU 支持在终端设备上运行大语言模型,如高通 Hexagon NPU 可本地运行 70 亿参数模型
- 智能体应用:支持端侧智能体的实时交互和决策
- 隐私保护:本地 AI 处理保护用户隐私,减少数据传输需求
行业应用深化:
- 医疗 AI:支持医学影像分析、辅助诊断等应用
- 智能制造:用于质量检测、设备监控、工艺优化
- 智慧城市:涵盖交通管理、公共安全、环境监测等领域
- 教育培训:个性化学习、智能辅导等创新应用
新兴应用涌现:
- 具身智能:为机器人和智能设备提供感知和决策能力
- 空间计算:支持 AR/VR、元宇宙等新兴应用
- 量子 - AI 融合:探索量子计算与 AI 的结合应用
5.5 中国 NPU 产业发展机遇
中国 NPU 产业正迎来历史性发展机遇:
市场规模增长:根据预测,中国 AI 芯片市场份额将从 2025 年的 28.5% 增长到 2030 年的 50.2%,实现全栈自主可控生态。
技术突破加速:
- 华为昇腾系列在算力和架构方面已达到国际先进水平
- 寒武纪、地平线等企业在特定领域形成技术优势
- 存算一体、Chiplet 等新技术路线上中国企业积极布局
政策支持力度:国家对 AI 芯片产业的政策支持力度不断加大,为产业发展提供了良好的外部环境。
产业链完善:从设计工具、制造工艺到封装测试,中国 NPU 产业链正在快速完善。
5.6 未来技术发展预测
基于当前技术发展趋势,对未来 NPU 技术发展做出以下预测:
| 时间节点 | 技术发展预测 |
|---|---|
| 2025 年 | 3nm 工艺全面普及,NPU 算力达到千 TOPS 级别 |
| 2026 年 | Chiplet 技术成为主流,异构集成架构成熟 |
| 2027 年 | 存算一体架构实现商业化,光子计算开始验证 |
| 2028 年 | 3D 堆叠技术成熟,RISC-V 生态完善 |
| 2029 年 | 类脑计算架构试点应用 |
| 2030 年 | 量子 - AI 混合芯片开始探索,全栈自主可控生态形成 |
关键技术突破方向:
- 能效比持续提升:通过架构创新和制程进步,实现能效比的大幅提升
- 专用化与通用化平衡:在保持专用化优势的同时提升通用性
- 智能化管理:引入 AI 技术对 NPU 自身进行优化管理
- 安全与隐私保护:在硬件层面实现更好的安全和隐私保护
结语
通过对全球 NPU 架构的全面分析,我们可以看到这一技术领域正处于快速发展的黄金期。从 2010 年的早期探索到 2025 年的成熟应用,NPU 技术经历了从实验室概念到大规模商业部署的完整历程,展现出强大的生命力和广阔的发展前景。
技术演进的核心驱动力来自于 AI 应用需求的快速增长。从最初的图像识别、语音处理,到现在的大语言模型、多模态 AI,NPU 始终在为更复杂、更智能的应用提供算力支撑。特别是在端侧 AI 和边缘计算领域,NPU 已经成为不可或缺的核心组件。
市场竞争格局呈现出 "国际巨头主导、本土企业崛起" 的特征。NVIDIA、高通、苹果等国际巨头凭借技术积累和生态优势占据领先地位,而华为、寒武纪、地平线等中国企业通过自主创新正在快速追赶,在某些领域甚至实现了技术领先。


