Google DeepMind 于 2026 年 4 月 2 日发布 Gemma 4 系列开源模型,包含 E2B(20 亿激活参数)、E4B(40 亿激活参数)、26B-A4B(MoE,38 亿激活参数)和 31B(密集架构)四个版本。其中 31B 版本在 AIME 2026 数学竞赛基准测试中达到 89.2%,在 LiveCodeBench v6 编程测试中达到 80.0%,均大幅超越此前开源模型的最高水平。

从落后到领先:一个月内的格局逆转
2026 年 3 月初,当 Meta 发布 Llama 4、阿里巴巴发布 Qwen 3.5 时,Gemma 3 在第三方评测中已明显落后。一个月后,Gemma 4 的发布彻底改写了竞争态势。
基准测试数据显示,Gemma 4 31B 在 MMLU Pro(多任务语言理解)上达到 85.2%,相比 Gemma 3 27B 的 67.6% 提升近 18 个百分点,并超越了 Llama 4 Scout 的约 74.3%。在 GPQA Diamond(研究生级别推理)测试中,Gemma 4 31B 的 84.3% 同样领先 Llama 4 Scout 的 74.3%。
数学能力的提升最为显著。AIME 2026 测试中,Gemma 4 31B 达到 89.2%,而 Gemma 3 27B 仅为 20.8%。作为参照,此前在该领域表现强势的 Qwen 3.5-27B 在 AIME 2025 上的得分约为 48.7%。编程能力方面,LiveCodeBench v6 得分从 29.1% 提升至 80.0%,超越了 Qwen 3.5 在 LiveCodeBench v5 上约 43% 的成绩。Codeforces ELO 评分从 110 升至 2150,从"几乎无法使用"跃升至专家级水平。
小参数模型的能力边界被重新定义
Gemma 4 产品线中最值得关注的是 E2B 和 E4B 这两个小参数版本。E2B 激活参数仅 20 亿,E4B 为 40 亿,两者均支持 128K 上下文窗口。根据 Google DeepMind 官方数据,E4B 在 MMMLU(多语言问答)上得分 69.4%,在 MMMU Pro(多模态推理)上得分 52.6%,在 τ²-bench(智能体工具使用)上得分 57.5%。
这两个小模型的关键差异在于多模态支持。E2B 和 E4B 是目前少数原生支持音频输入的开源模型,能够进行语音识别和理解。这意味着开发者可以在手机、Raspberry Pi、Jetson Nano 等资源受限设备上部署具备音频处理能力的 AI 应用,而无需依赖云端 API。NVIDIA 的技术博客指出,这两个模型能够在边缘设备上实现接近零延迟的完全离线推理。
MoE 架构的效率突破
Gemma 4 26B-A4B 采用混合专家(Mixture of Experts)架构,总参数量 260 亿,但推理时仅激活 38 亿参数。这种设计使其在保持接近 31B 密集模型 97% 性能的同时,大幅降低了计算开销。
具体而言,26B-A4B 在 MMLU Pro 上达到 82.6%(31B 为 85.2%),在 GPQA Diamond 上达到 82.3%(31B 为 84.3%),在 AIME 2026 上达到 88.3%(31B 为 89.2%)。对于拥有 32GB 显存的消费级 GPU 用户,这意味着可以用更低的推理成本获得接近旗舰模型的效果。
与竞品的差异化定位
Gemma 4 的发布使开源大模型形成了新的竞争格局:
- 综合性能:Gemma 4 31B 在推理、数学、编程、视觉理解等硬核任务上全面领先
- 超长上下文:Llama 4 Scout 的 1000 万 token 上下文窗口仍是唯一选择
- 多语言支持:Qwen 3.5 的 201 种语言覆盖仍有优势
- 许可条款:Gemma 4 和 Qwen 3.5 均采用 Apache 2.0 协议,允许无限制商业使用;Llama 4 设有每月 700 万活跃用户的商业上限
Gemma 4 全系支持函数调用和结构化 JSON 输出,这对构建 AI Agent 工作流至关重要。31B 和 26B-A4B 版本支持 256K 上下文窗口,E2B 和 E4B 支持 128K。
对开发者的实际意义
Gemma 4 为不同硬件条件和应用场景提供了明确的选择路径。追求极致性能且拥有充足算力资源的用户可选择 31B 版本;注重计算效率的开发者可选择 26B-A4B;需要在边缘设备部署的则可选用 E2B 或 E4B。
小参数模型的能力突破正在改变 AI 应用的部署范式。当 40 亿参数的 E4B 能够在手机上实现接近云端大模型的多模态理解效果时,隐私保护、离线可用性、响应延迟等传统限制都得到了根本性改善。
Google 通过与 NVIDIA 的深度合作,确保 Gemma 4 在从 Jetson 边缘设备到 RTX PC、DGX 数据中心的全栈硬件上都能获得优化支持。模型权重已上架 Hugging Face、Kaggle 等平台,支持通过 Google AI Edge、Keras、Ollama 等多种方式部署。
---
Gemma 4 系列规格对比
| 模型 | 激活参数 | 上下文窗口 | 音频支持 | 适用场景 |
|------|----------|------------|----------|----------|
| E2B | 2B | 128K | 是 | 移动/IoT 设备 |
| E4B | 4B | 128K | 是 | 边缘设备 |
| 26B-A4B | 3.8B (MoE) | 256K | 否 | 高效推理 |
| 31B | 31B | 256K | 否 | 旗舰性能 |
核心基准测试对比
| 测试项目 | Gemma 4 31B | Gemma 4 26B-A4B | Llama 4 Scout | Qwen 3.5-27B |
|----------|-------------|-----------------|---------------|--------------|
| MMLU Pro | 85.2% | 82.6% | ~74.3% | - |
| GPQA Diamond | 84.3% | 82.3% | ~74.3% | - |
| AIME 2026 | 89.2% | 88.3% | - | ~48.7%* |
| LiveCodeBench | 80.0% | 77.1% | - | ~43%* |
*注:Qwen 3.5 数据为 AIME 2025 和 LiveCodeBench v5 测试结果,版本不同仅供参考。*


