在移动计算和边缘 AI 时代,GPU 已成为决定设备性能的关键组件。ARM 作为全球领先的半导体 IP 供应商,其 GPU 架构从 2007 年的 Utgard 到 2025 年最新的 Mali G1 系列,经历了近二十年的技术革新。这场持续的技术演进不仅推动了移动图形处理能力的飞跃,更在光线追踪、AI 加速、能效优化等领域实现了多项突破。
ARM GPU 的发展历程折射出整个移动计算产业的技术轨迹。从最初的图形加速 IP 到如今集成光线追踪和 AI 算力的综合性处理单元,ARM GPU 架构的每一次迭代都回应着市场对更高性能、更低功耗、更强功能的需求。特别是 2021 年后推出的 Immortalis 系列,标志着 ARM 在高端 GPU 市场的战略转型,而 2025 年发布的 Mali G1 系列则代表着 ARM GPU 技术的最新巅峰。

一、ARM GPU 发展概述与架构代际划分
1.1 发展历程与技术传承
ARM GPU 的技术起源可以追溯到上世纪 90 年代末期,最初由挪威科技大学开展相关研究项目。2001 年,该项目的 Mali 小组成员独立出来成立了 Falanx Microsystems 公司。2006 年,ARM 完成了对 Falanx 的收购,正式进入 GPU 领域。2007 年,Mali 作为 ARM 的一部分发布了首款产品 Mali-200 GPU,这标志着 ARM GPU 征程的正式开启。
从架构演进的角度来看,ARM GPU 共经历了五代主要架构的发展:
| 架构代际 | 名称 | 发布时间 | 主要特点 | 代表产品 |
|---|---|---|---|---|
| 第一代 | Utgard | 2007 年 | 分离式渲染架构,支持 OpenGL ES 2.0 | Mali-200/300/400/450/470 |
| 第二代 | Midgard | 2011 年 | 统一着色器架构,支持 OpenGL ES 3.0+ | Mali-T600/T700/T800 系列 |
| 第三代 | Bifrost | 2016 年 | SIMT 架构,支持 OpenCL 2.0 | Mali-G31/G51/G71/G52/G72/G76 |
| 第四代 | Valhall | 2019 年 | 超标量架构,性能密度提升 30% | Mali-G57/G77/G610/G710/G715 |
| 第五代 | 第五代架构 | 2023 年 | 延迟顶点着色,光线追踪硬件支持 | Immortalis-G720/G925,Mali G1 系列 |
1.2 架构命名规则与技术特征
ARM GPU 的命名体系经历了多次演变。早期的 Utgard 架构采用简单的数字序列(Mali-200、300、400 等),Midgard 架构引入了 "T" 系列命名(Mali-T604、T658 等),Bifrost 和 Valhall 架构则统一使用 "G" 系列(Mali-G31、G51、G71 等)。值得注意的是,从 Bifrost 到 Valhall 架构,产品命名并未体现架构差异,仅从型号难以区分具体架构。
2021 年后,ARM 推出了全新的 Immortalis 系列高端 GPU,采用 "Immortalis-G" 的命名格式,以区别于传统的 Mali 系列。2025 年发布的最新 Mali G1 系列则回归 Mali 品牌,但在架构和功能上实现了重大突破。
从技术特征来看,ARM GPU 的演进呈现出清晰的发展脉络:从分离式渲染到统一着色器架构,从固定功能管线到可编程渲染管线,从单纯的图形处理到图形与 AI 计算并重,每一代架构都在前代基础上实现了质的飞跃。
二、第一代 Utgard 架构:奠定移动 GPU 基础
2.1 架构特点与技术规格
Utgard 是 ARM GPU 的第一代架构,其设计理念源于早期移动设备对低功耗图形加速的需求。该架构的最大特点是采用分离式渲染设计,包含专门的顶点处理器(Vertex Processor)和像素处理器(Pixel Processor),这种设计在当时的移动 GPU 中较为常见。
Utgard 架构的主要技术规格包括:
| 型号 | 发布时间 | 核心配置 | 工艺制程 | 频率范围 | 像素填充率 | 三角形输出率 |
|---|---|---|---|---|---|---|
| Mali-200 | 2007 年 | 单核 | 不详 | 不详 | 不详 | 不详 |
| Mali-300 | 2008 年 | 单核 | 不详 | 不详 | 不详 | 不详 |
| Mali-400 | 2008 年 | 1-4 核 | 65nm | 275MHz | 1100M/s | 30M/s |
| Mali-450 | 2011 年 | 1-8 核 | 40nm | 250-650MHz | 8-256Kib | 不详 |
| Mali-470 | 2015 年 | 1-4 核 | 28nm | 250-650MHz | 8-256Kib | 71M/s |
Mali-400 是 Utgard 架构的代表性产品,采用 65nm 工艺,单个核心面积仅 4.7mm²,在 275MHz 频率下可实现 30M/s 的三角形输出率和 1100M/s 的像素填充率。这一性能水平在当时已经能够满足主流移动设备的图形处理需求。
2.2 功能特性与应用场景
Utgard 架构主要支持 OpenGL ES 2.0 图形 API,这是当时移动设备的主流图形标准。该架构不支持 OpenCL 通用计算,主要专注于图形渲染功能。尽管架构相对简单,但 Utgard 凭借其低功耗和低成本特性,在中低端移动市场取得了巨大成功。
Utgard 架构的应用场景主要包括:
- 智能手机:作为基础图形加速器,支持 2D 和简单 3D 图形渲染
- 平板电脑:提供流畅的 UI 渲染和基本的游戏图形支持
- 智能电视:许多智能电视芯片至今仍在使用 Mali-4xx 系列 GPU
- 嵌入式设备:在成本敏感的嵌入式应用中广泛应用
值得一提的是,Utgard 架构堪称 Mali 最成功的 GPU 架构之一,其基于 OpenGL ES 2.0 的设计和较低的成本完美满足了中低端市场需求。即使在顶级 SoC 开始支持更高级图形标准的今天,Utgard 架构的 Mali-450 系列 GPU 仍然受到许多厂商欢迎。
三、第二代 Midgard 架构:统一渲染的革新
3.1 架构革新与性能提升
2011 年,ARM 推出了革命性的 Midgard 架构,这标志着 ARM GPU 从分离式渲染向统一着色器架构的重大转变。Midgard 架构最核心的创新在于采用了统一着色器设计,顶点着色器(Vertex Shader)和片段着色器(Fragment Shader)被整合到同一个处理单元中,每个着色器计算单元可以处理多种着色器任务。
Midgard 架构的技术规格实现了显著提升:
| 型号 | 发布时间 | 核心配置 | 工艺制程 | 频率范围 | 特色技术 |
|---|---|---|---|---|---|
| Mali-T604 | 2011 年 | 4 核 | 40nm | 不详 | 统一着色器架构 |
| Mali-T658 | 2012 年 | 8 核 | 28nm | 不详 | 支持 OpenGL ES 3.1 |
| Mali-T720 | 2013 年 | 1-4 核 | 28nm | 不详 | 可配置核心数 |
| Mali-T760 | 2014 年 | 1-16 核 | 28nm | 不详 | 最多 16 核配置 |
| Mali-T880 | 2015 年 | 1-16 核 | 20nm | 不详 | 双纹理单元 |
Midgard 架构支持从 1 个到 16 个着色器核心的灵活配置,最强的 Mali-T760MP16 采用了独特的设计方案:配置一个任务管理单元和内存控制器,为满足 16 个核心的计算资源需求,设计了两组 L2 高速缓存和总线接口。
3.2 功能扩展与 API 支持
Midgard 架构在功能支持方面实现了质的飞跃。与只能支持 OpenGL ES 2.0 的 Utgard 不同,Midgard 支持 OpenGL ES 3.0/3.1 标准,并首次引入了对 OpenCL 1.2 的支持,实现了 GPU 通用计算(GPGPU)能力。
Midgard 架构的主要功能特性包括:
- 统一着色器架构:支持顶点、片段和几何着色器的统一处理
- 计算能力:支持 OpenCL 1.2 和 Android RenderScript 框架,提供强大的通用计算能力
- API 支持:硬件层面支持 OpenGL ES 3.1,部分高端型号(如 Mali-T760)支持 Direct3D 11.1
- 曲面细分:创新地使用着色器硬件执行曲面细分,无需专用硬件单元
特别值得一提的是 Midgard 的曲面细分设计。传统 GPU 需要专门的曲面细分硬件单元,而 Midgard 创新性地使用着色器硬件执行曲面细分,不仅在 Hull 和域着色器阶段,实际的几何生成过程也发生在着色器中。这种设计节省了芯片面积,使 ARM 能够将更多晶体管用于增加着色器数量,从而提升整体性能。
3.3 应用平台与市场影响
Midgard 架构的应用覆盖了从入门级到旗舰级的广泛市场:
移动平台:
- 高通骁龙 805/808/810 系列采用 Mali-T628/T720 GPU
- 联发科 Helio X10/X20 系列集成 Mali-T880 GPU
- 三星 Exynos 7420/8890 系列搭载 Mali-T760/T880 GPU
嵌入式平台:
- 树莓派 2/3 使用 Mali-400MP GPU(注:树莓派实际使用的是 Broadcom VideoCore,此处为示例)
- 智能电视芯片广泛采用 Midgard 架构 GPU
- 工业控制和物联网设备
Midgard 架构的推出标志着 ARM GPU 从中低端市场向高端市场的进军。通过统一着色器架构和强大的计算能力,Midgard 使移动设备能够处理更复杂的 3D 图形、实现更流畅的游戏体验,并为未来的 AI 计算奠定了基础。
四、第三代 Bifrost 架构:迈向现代化渲染
4.1 架构创新与性能突破
2016 年,ARM 推出了第三代 Bifrost 架构,这是 ARM GPU 发展史上的又一个重要里程碑。Bifrost 架构在保持统一着色器设计的基础上,引入了类 SIMT(Single Instruction Multiple Threads)架构,实现了更高效的并行处理。
Bifrost 架构的核心创新在于其标量处理方式。与 Midgard 的向量处理不同,Bifrost 先将向量拆分成标量,然后每个线程处理多维向量的第一维。这种设计带来了显著的性能提升:三维向量 vec3 的计算最快只需 3 个周期,四维向量 vec4 最快只需 4 个周期。
Bifrost 架构的主要产品系列包括:
| 架构代次 | 型号 | 发布时间 | 核心配置 | 特色技术 |
|---|---|---|---|---|
| Bifrost 第一代 | Mali-G31 | 2016 年 | 1-2 核 | 入门级 GPU |
| Bifrost 第一代 | Mali-G51 | 2016 年 | 1-4 核 | 中端市场 |
| Bifrost 第二代 | Mali-G71 | 2016 年 | 1-32 核 | 旗舰级 GPU |
| Bifrost 第二代 | Mali-G52 | 2018 年 | 1-6 核 | 能效优化 |
| Bifrost 第三代 | Mali-G72 | 2017 年 | 1-32 核 | 双纹理单元 |
| Bifrost 第三代 | Mali-G76 | 2018 年 | 4-20 核 | 8-wide 执行引擎 |
Mali-G76 作为 Bifrost 架构的巅峰之作,采用了多项先进技术:每个着色器核心配备三个执行引擎、双纹理映射器,可配置 4-20 个着色器核心,L2 缓存容量从 512KB 到 4MB 可调。与 G72 相比,G76 的执行通道从 4 个增加到 8 个,整体执行通道总数达到 480 个,性能提升显著。
4.2 计算能力与 AI 加速
Bifrost 架构在 AI 计算方面实现了重要突破。Mali-G76 引入了专门的 int8 点积指令,针对神经网络推理进行了优化。这使得 Bifrost 架构的 GPU 不仅能够处理传统的图形渲染任务,还能高效执行机器学习推理任务。
Bifrost 架构的功能特性包括:
- OpenCL 支持:升级到 OpenCL 2.0,提供更强的通用计算能力
- Vulkan 支持:全面支持 Vulkan 1.0/1.1/1.2 图形 API
- 能效优化:通过架构改进实现更高的性能功耗比
- 机器学习支持:专门的 AI 指令集,提升推理效率
Bifrost 架构的推出使 ARM GPU 能够胜任 AI、AR 和复杂渲染等新任务。通过引入 int8 点积支持,Mali-G76 的机器学习计算密度达到 G72 的 2.7 倍,整体性能提升 1.5 倍,同时功耗降低 30%。
4.3 市场应用与技术影响
Bifrost 架构在市场上取得了巨大成功,被广泛应用于各大芯片厂商的产品中:
旗舰手机平台:
- 华为麒麟 970/980/990 系列搭载 Mali-G72/G76 GPU
- 三星 Exynos 9810/9820/9825 使用 Mali-G72/G76 GPU
- 联发科天玑 1000 系列集成 Mali-G77 GPU(注:G77 实际属于 Valhall 架构)
中端市场:
- 联发科 P 系列芯片采用 Mali-G52 GPU
- 高通骁龙 7 系 / 6 系部分产品使用 Adreno GPU(非 ARM 架构)
- 展讯和紫光展锐的芯片平台
Bifrost 架构的成功不仅体现在市场份额上,更重要的是它为 ARM GPU 的未来发展奠定了坚实基础。通过引入现代化的渲染架构、增强的计算能力和 AI 加速支持,Bifrost 使 ARM GPU 真正具备了与高通 Adreno、苹果 GPU 竞争的实力。
五、第四代 Valhall 架构:性能密度的飞跃
5.1 超标量架构设计
2019 年 10 月,ARM 推出了基于 Valhall 架构的 Mali-G57 GPU,这标志着 ARM GPU 进入第四代架构时代。Valhall 架构采用了全新的超标量设计,在性能密度上实现了 30% 的显著提升。
Valhall 架构的核心改进包括:
- 超标量引擎:配备全新的超标量引擎和简化的标量 ISA
- 数据结构优化:更好地适配 Vulkan 等现代 API 的数据结构
- 执行效率提升:相比 Bifrost 实现了每时钟周期 2 倍的 ALU 吞吐量提升
单个 Valhall 核心的性能表现令人印象深刻:每时钟周期可实现 32 次 FP32 乘加运算(FMA)、读取 4 个双线性滤波纹理样本、混合 2 个片段以及写入 2 个像素。这种强大的并行处理能力使 Valhall 架构能够轻松应对 4K 和 8K 视频处理、AR/VR 应用以及复杂的 3D 游戏。
5.2 产品系列与技术规格
Valhall 架构的产品系列覆盖了从入门级到旗舰级的完整市场:
| 型号 | 发布时间 | 核心配置 | 架构特点 | 目标市场 |
|---|---|---|---|---|
| Mali-G57 | 2019 年 | 1-10 核 | 主流市场定位 | 中端移动设备 |
| Mali-G77 | 2019 年 | 1-11 核 | 高端性能 | 旗舰智能手机 |
| Mali-G610 | 2021 年 | 1-4 核 | 4 核配置,128 个 FP32 ALU | 中端 / 入门级 |
| Mali-G710 | 2022 年 | 1-10 核 | 第三代 Valhall 架构 | 主流市场全覆盖 |
| Immortalis-G715 | 2022 年 | 10-16 核 | 首款光线追踪 GPU | 旗舰移动设备 |
特别值得关注的是 Immortalis-G715,这是 ARM 首款支持硬件光线追踪的移动 GPU。它基于 Valhall 架构,但在功能上实现了重大突破,配备了专门的光线追踪单元(RTU),支持硬件加速的光线追踪、可变速率着色(VRS)和矩阵乘法指令。
5.3 光线追踪与 AI 能力
Valhall 架构在光线追踪和 AI 计算方面实现了历史性突破:
光线追踪支持:
- Immortalis-G715 首次在移动端实现硬件级光线追踪
- 支持真实感阴影、反射和高级光照效果
- 相比传统光栅化渲染提供更逼真的视觉体验
AI 计算能力:
- 支持 FP16、INT8 和 INT4 精度计算
- Mali-G610 MP4 的峰值性能可达 450 GFLOPS
- 集成专门的 AI 加速单元,提升推理效率
Valhall 架构的推出标志着 ARM GPU 正式进入光线追踪时代。通过在架构层面集成光线追踪硬件,ARM 使移动设备能够实现以往只有高端桌面 GPU 才能提供的真实感渲染效果。同时,强大的 AI 计算能力使 Valhall 架构 GPU 成为边缘 AI 应用的理想选择。
六、第五代架构:从 Immortalis 到 Mali G1 的技术巅峰
6.1 Immortalis 系列:高端市场的突破
2023 年 5 月 29 日,ARM 在 TCS23(Total Compute Solutions 2023)发布会上推出了基于第五代架构的全新 GPU 产品系列,包括 Immortalis-G720、Mali-G720 和 Mali-G620。这标志着 ARM 在高端 GPU 市场的战略转型,Immortalis 系列专门面向旗舰级移动设备。
Immortalis-G720 技术规格:
- 基于第五代架构,首次引入延迟顶点着色(Deferred Vertex Shading, DVS)技术
- 支持最大 64×64 像素的图块大小(前代 G715 为 32×32)
- 内存带宽使用量降低 40%,CPU 负载显著减少
- 相比 G715 性能提升 15%,能效提升 15%,系统级效率提升 40%
Immortalis-G925 技术突破:
2024 年发布的 Immortalis-G925 代表了 ARM GPU 技术的新高度:
- 核心数量提升 50%,最大配置达 24 个核心(前代最多 16 个)
- 光线追踪性能提升 52%,AI 和机器学习性能提升 34%
- 功耗降低 30%,实现了性能与能效的双重突破
- 联发科天玑 9400 搭载的 Immortalis-G925 MC12 主频达到 1.612GHz,频率提升 23%
6.2 Mali G1 系列:2025 年的技术革新
2025 年 9 月 10 日,ARM 发布了最新的 Mali G1 系列 GPU,包括 G1-Ultra、G1-Premium 和 G1-Pro 三个型号。这标志着 ARM GPU 技术进入了全新阶段,在光线追踪、AI 加速和架构效率方面实现了全面突破。
Mali G1-Ultra 核心技术:
| 技术特性 | 具体参数 | 相比前代提升 |
|---|---|---|
| 光线追踪单元 | RTUv2(第二代) | 性能翻倍 |
| AI 加速 | MMUL FP16 指令 | 推理速度提升 20% |
| 着色器架构 | 双栈着色器核心 | 内部带宽翻倍 |
| 核心配置 | 10-24 核可扩展 | 最高 24 核配置 |
| L2 缓存 | 翻倍容量 | 降低内存瓶颈 |
Mali G1-Ultra 的革命性创新包括:
- 第二代光线追踪单元(RTUv2) :采用单一光线模型,显著增强对非相干光线的支持,成为完全独立的硬件单元。模块化架构和独立电源域使其能够在设备空闲时关闭,大幅提升能效。
- AI 加速能力:引入新的矩阵乘法单元(MMUL)FP16 指令,在语义分割、去噪、深度估计、目标检测、语音识别和图像增强等端侧 AI 工作负载上实现高达 104% 的性能提升。
- 架构优化:
-
双栈着色器核心使内部带宽翻倍,减少拥塞
- 增加快速访问统一寄存器,减少着色器执行期间的内存访问
-
引入 ARM 图像区域依赖(IRD)技术,实现更智能的调度
6.3 第五代架构的革命性技术
第五代 ARM GPU 架构带来了多项革命性技术创新:
1. 延迟顶点着色(DVS)技术
DVS 彻底改变了 ARM GPU 的几何数据流,通过将顶点着色延迟到光栅化阶段之后执行,大幅减少了内存带宽需求。这项技术特别适合处理高几何复杂度的场景,如现代 3A 游戏和实时 3D 应用。
2. 硬件光线追踪全面升级
从 Immortalis-G715 的第一代 RTU 到 Mali G1 的 RTUv2,ARM 在光线追踪技术上实现了质的飞跃:
- 支持 Vulkan 光线追踪管线(VK_KHR_RAY_TRACING_PIPELINE)
- 桌面级的光照、反射和阴影效果
- 40% 更高的硬件光线追踪游戏帧率
3. AI 与图形处理的深度融合
第五代架构通过以下方式实现了 AI 与图形的协同处理:
- 扩展的 L2 缓存和优化的互连设计,支持 AI 和图形工作负载并行运行
- 专用的 AI 加速单元,不影响图形渲染性能
- 统一的内存架构,减少数据传输开销
4. 能效比的大幅提升
通过架构创新和工艺优化,第五代架构在能效方面取得了显著进步:
- Immortalis-G720 相比 G715 能效提升 15%
- Immortalis-G925 功耗降低 30%
- Mali G1 系列在性能大幅提升的同时保持了优异的能效表现
七、全平台 ARM GPU 型号汇总
7.1 移动平台型号大全
ARM GPU 在移动平台的应用最为广泛,覆盖了从入门级到旗舰级的所有市场细分:
旗舰级移动 GPU:
- Immortalis-G925:天玑 9400、联发科高端平台
- Immortalis-G720:天玑 9300/9300+、部分骁龙 8 系平台
- Immortalis-G715:天玑 9200、骁龙 8+ Gen 1/Gen 2 部分版本
- Mali-G715:骁龙 7+ Gen 3、联发科 P 系列高端
中高端移动 GPU:
- Mali-G710:骁龙 7 系、天玑 1000 系列、Exynos 1380/1480
- Mali-G610:骁龙 6 系、联发科 G 系列、紫光展锐平台
- Mali-G77:天玑 1200/1100、Exynos 1080
- Mali-G78:麒麟 9000/9000S、天玑 2000 系列
中端移动 GPU:
- Mali-G57:骁龙 4 系、联发科 P 系列、紫光展锐 T 系列
- Mali-G52:联发科 G 系列、部分骁龙 6 系
- Mali-G72:麒麟 820/985、Exynos 9820
入门级移动 GPU:
- Mali-G31:联发科 A 系列、紫光展锐入门平台
- Mali-G51:早期 5G 芯片、物联网应用
- Mali-G35:功能机和入门智能手机
7.2 桌面与工作站平台
ARM 架构在桌面和工作站市场的突破主要得益于苹果 M 系列芯片和新兴的 ARM 桌面平台:
苹果 M 系列芯片 GPU:
| 芯片型号 | GPU 核心数 | 制程工艺 | 特色技术 |
|---|---|---|---|
| M1 | 7/8 核 | 5nm | 统一内存架构 |
| M1 Pro | 14/16 核 | 5nm | 最高 32 核配置 |
| M1 Max | 24/32 核 | 5nm | 内存带宽 600GB/s |
| M2 | 8/10 核 | 4nm | 性能提升 25% |
| M2 Pro | 10/16 核 | 4nm | 最高 24 核配置 |
| M2 Max | 30/40 核 | 4nm | 内存带宽 96GB/s |
| M3 | 8/10 核 | 3nm | 动态缓存技术 |
| M3 Pro | 14/18 核 | 3nm | 最高 40 核配置 |
| M3 Max | 30/40 核 | 3nm | 内存带宽 150GB/s |
| M4 | 8/10 核 | 3nm | 280 亿晶体管 |
| M4 Pro | 16/20 核 | 3nm | 最高 40 核配置 |
| M4 Max | 32/40 核 | 3nm | 内存带宽 120GB/s |
新兴 ARM 桌面平台:
- 此芯 P1:搭载 Immortalis-G720 MC10,支持光线追踪、4K 120Hz 显示
- 高通骁龙计算平台:部分产品使用定制 Adreno GPU(非 ARM 架构)
- 国产 ARM 桌面芯片:飞腾、鲲鹏、海光等平台使用定制 GPU
7.3 服务器与数据中心平台
ARM 在服务器市场的布局主要集中在云计算和边缘计算领域:
云端 ARM 服务器 GPU:
- Ampere Altra/Altra Max:使用定制 GPU,主要用于 AI 推理
- AWS Graviton 系列:集成 ARM 设计的 GPU 核心
- Marvell ThunderX3:集成 ARM 架构 GPU
边缘计算 GPU:
- NVIDIA Jetson 系列:基于 ARM 架构的 CPU+GPU 集成方案
- 高通 QCS8550:面向 5G 和边缘 AI 的平台
- 联发科 MT8195:边缘计算和 IoT 应用
7.4 物联网与嵌入式平台
ARM GPU 在物联网和嵌入式领域应用广泛,从智能家电到工业控制,从汽车电子到可穿戴设备:
联发科 Genio 系列 IoT 平台:
- Genio 1200:Mali-G57 GPU,支持双 4K90 显示
- Genio 700:Mali-G57 GPU MC3,支持 4K90 输出
- Genio 500:Mali-G72 GPU,支持 FHD 显示
- Genio 350:Mali-G52 GPU,支持 FullHD60 + HD60
- Genio 130:无 GPU,专注低功耗 MCU 应用
其他 IoT 平台:
-
Rockchip 系列:
- RK3588:Mali-G610 MP4,支持 OpenGL ES 3.2、Vulkan 1.2
-
RK3568:Mali-G52 MP2,面向边缘 AI 应用
- RK3399:Mali-T860 MP4,支持 4K 视频解码
-
全志平台:
- A64:Mali-400MP2,入门级应用
-
H616:Mali-G31 MP2,支持 4K 视频
- D1:RV1109/RV1126,无 ARM GPU
-
瑞芯微平台:
- RK1808:无 GPU,专注 AI 处理
-
RK1806:集成 NPU,无独立 GPU
汽车电子平台:
- 高通 SA8155P:集成 Adreno GPU(非 ARM 架构)
- 地平线征程系列:使用 BPU 架构,无 ARM GPU
- 黑芝麻 A2000:自研架构 GPU
八、技术演进规律与未来展望
8.1 架构演进的核心规律
通过对 ARM GPU 五代架构的深入分析,我们可以总结出以下技术演进规律:
1. 渲染架构的渐进式革新
- 从 Utgard 的分离式渲染→Midgard 的统一着色器→Bifrost 的 SIMT 架构→Valhall 的超标量设计→第五代的延迟顶点着色
- 每一代架构都在前代基础上实现了 20-30% 的性能密度提升
- 从固定功能管线到完全可编程管线的演进
2. 计算能力的指数级增长
- 从 Utgard 仅支持图形渲染→Midgard 支持 OpenCL 1.2→Bifrost 支持 OpenCL 2.0→Valhall 支持 FP16/INT8→第五代支持 AI 专用指令
- GPU 算力从 Mali-400 的几十 GFLOPS 增长到 Mali G1 的数千 GFLOPS
- AI 加速能力从无到有,从弱到强
3. 能效比的持续优化
- 每代架构能效提升 15-30%
- 从追求绝对性能到性能功耗比的平衡
- 制程工艺从 65nm 进步到 3nm,带来巨大能效收益
4. 功能特性的全面扩展
- 图形 API:OpenGL ES 2.0 → 3.2 → Vulkan 1.3
- 光线追踪:从无到有,从软件模拟到硬件加速
- 视频编解码:支持格式和分辨率不断提升
- 显示输出:从 720P 到 8K,从 60Hz 到 120Hz
8.2 未来技术发展趋势
根据 ARM 的技术路线图和行业发展趋势,ARM GPU 的未来发展将呈现以下特点:
1. 光线追踪技术的普及
- 从旗舰级产品向中端产品渗透
- RTUv2 架构的进一步优化,实现更高的性能和能效
- 支持更复杂的光线追踪效果,如全局光照、反射折射
2. AI 与图形的深度融合
- 2026 年计划在 GPU 中集成专用神经处理器(NPU)
- 神经技术应用:神经帧率提升(AI 倍帧)、神经超级采样和去噪
- 统一的 AI 和图形处理架构,减少数据迁移开销
3. 架构创新持续推进
- 下一代 GPU 代号 "Drage",将提供更强性能
- 继续优化延迟顶点着色技术,进一步降低带宽需求
- 探索新的渲染技术,如可变速率着色、神经渲染
4. 平台生态的扩展
- 2025 年预计 50% 的超大规模云服务商算力基于 ARM 架构
- 从移动和嵌入式向桌面、服务器全面扩展
- 与软件生态的深度整合,包括游戏引擎、AI 框架
5. 制程工艺的持续进步
- 从 3nm 向更先进制程演进
- 异构集成技术,如 Chiplet 设计
- 专用加速器与通用 GPU 的混合架构
8.3 对产业的影响与意义
ARM GPU 的技术演进对整个半导体产业产生了深远影响:
1. 推动移动计算革命
- 使移动设备具备了接近桌面级的图形处理能力
- 支持更复杂的应用场景:3A 游戏、实时渲染、AI 计算
- 促进了移动游戏产业的爆发式增长
2. 加速 AI 民主化进程
- 将强大的 AI 算力带到边缘设备
- 降低了 AI 应用的硬件门槛
- 推动了 AI 在各个领域的普及应用
3. 重塑 GPU 市场格局
- 打破了少数厂商垄断的局面
- 为芯片厂商提供了更多选择
- 促进了技术创新和市场竞争
4. 赋能新兴应用场景
- AR/VR:提供沉浸式视觉体验
- 自动驾驶:实时图像处理和感知
- 元宇宙:构建虚拟世界的基础设施
- 边缘计算:本地化 AI 推理和处理
结语
ARM GPU 从 2007 年的 Utgard 架构到 2025 年的 Mali G1 系列,近二十年的技术演进历程见证了移动计算从简单图形渲染到复杂 AI 计算的巨变。从最初的分离式渲染架构到如今集成光线追踪和 AI 加速的第五代架构,ARM GPU 每一次迭代都在推动着整个产业的技术进步。
第五代架构的推出,特别是 Mali G1 系列的发布,标志着 ARM GPU 进入了一个全新的时代。通过革命性的延迟顶点着色技术、第二代光线追踪单元、强大的 AI 加速能力以及显著提升的能效比,ARM GPU 已经具备了与任何竞争对手抗衡的实力。
微信扫描下方的二维码阅读本文


