Google 发布 Gemma 4：4B 参数模型数学能力逼近 90%，开源模型格局生变

Google DeepMind 于 2026 年 4 月 2 日发布 Gemma 4 系列开源模型，包含 E2B（20 亿激活参数）、E4B（40 亿激活参数）、26B-A4B（MoE，38 亿激活参数）和 31B（密集架构）四个版本。其中 31B 版本在 AIME 2026 数学竞赛基准测试中达到 89.2%，在 LiveCodeBench v6 编程测试中达到 80.0%，均大幅超越此前开源模型的最高水平。

从落后到领先：一个月内的格局逆转

2026 年 3 月初，当 Meta 发布 Llama 4、阿里巴巴发布 Qwen 3.5 时，Gemma 3 在第三方评测中已明显落后。一个月后，Gemma 4 的发布彻底改写了竞争态势。

基准测试数据显示，Gemma 4 31B 在 MMLU Pro（多任务语言理解）上达到 85.2%，相比 Gemma 3 27B 的 67.6% 提升近 18 个百分点，并超越了 Llama 4 Scout 的约 74.3%。在 GPQA Diamond（研究生级别推理）测试中，Gemma 4 31B 的 84.3% 同样领先 Llama 4 Scout 的 74.3%。

数学能力的提升最为显著。AIME 2026 测试中，Gemma 4 31B 达到 89.2%，而 Gemma 3 27B 仅为 20.8%。作为参照，此前在该领域表现强势的 Qwen 3.5-27B 在 AIME 2025 上的得分约为 48.7%。编程能力方面，LiveCodeBench v6 得分从 29.1% 提升至 80.0%，超越了 Qwen 3.5 在 LiveCodeBench v5 上约 43% 的成绩。Codeforces ELO 评分从 110 升至 2150，从"几乎无法使用"跃升至专家级水平。

小参数模型的能力边界被重新定义

Gemma 4 产品线中最值得关注的是 E2B 和 E4B 这两个小参数版本。E2B 激活参数仅 20 亿，E4B 为 40 亿，两者均支持 128K 上下文窗口。根据 Google DeepMind 官方数据，E4B 在 MMMLU（多语言问答）上得分 69.4%，在 MMMU Pro（多模态推理）上得分 52.6%，在 τ²-bench（智能体工具使用）上得分 57.5%。

这两个小模型的关键差异在于多模态支持。E2B 和 E4B 是目前少数原生支持音频输入的开源模型，能够进行语音识别和理解。这意味着开发者可以在手机、Raspberry Pi、Jetson Nano 等资源受限设备上部署具备音频处理能力的 AI 应用，而无需依赖云端 API。NVIDIA 的技术博客指出，这两个模型能够在边缘设备上实现接近零延迟的完全离线推理。

MoE 架构的效率突破

Gemma 4 26B-A4B 采用混合专家（Mixture of Experts）架构，总参数量 260 亿，但推理时仅激活 38 亿参数。这种设计使其在保持接近 31B 密集模型 97% 性能的同时，大幅降低了计算开销。

具体而言，26B-A4B 在 MMLU Pro 上达到 82.6%（31B 为 85.2%），在 GPQA Diamond 上达到 82.3%（31B 为 84.3%），在 AIME 2026 上达到 88.3%（31B 为 89.2%）。对于拥有 32GB 显存的消费级 GPU 用户，这意味着可以用更低的推理成本获得接近旗舰模型的效果。

与竞品的差异化定位

Gemma 4 的发布使开源大模型形成了新的竞争格局：

综合性能：Gemma 4 31B 在推理、数学、编程、视觉理解等硬核任务上全面领先
超长上下文：Llama 4 Scout 的 1000 万 token 上下文窗口仍是唯一选择
多语言支持：Qwen 3.5 的 201 种语言覆盖仍有优势
许可条款：Gemma 4 和 Qwen 3.5 均采用 Apache 2.0 协议，允许无限制商业使用；Llama 4 设有每月 700 万活跃用户的商业上限

Gemma 4 全系支持函数调用和结构化 JSON 输出，这对构建 AI Agent 工作流至关重要。31B 和 26B-A4B 版本支持 256K 上下文窗口，E2B 和 E4B 支持 128K。

对开发者的实际意义

Gemma 4 为不同硬件条件和应用场景提供了明确的选择路径。追求极致性能且拥有充足算力资源的用户可选择 31B 版本；注重计算效率的开发者可选择 26B-A4B；需要在边缘设备部署的则可选用 E2B 或 E4B。

小参数模型的能力突破正在改变 AI 应用的部署范式。当 40 亿参数的 E4B 能够在手机上实现接近云端大模型的多模态理解效果时，隐私保护、离线可用性、响应延迟等传统限制都得到了根本性改善。

Google 通过与 NVIDIA 的深度合作，确保 Gemma 4 在从 Jetson 边缘设备到 RTX PC、DGX 数据中心的全栈硬件上都能获得优化支持。模型权重已上架 Hugging Face、Kaggle 等平台，支持通过 Google AI Edge、Keras、Ollama 等多种方式部署。

---

Gemma 4 系列规格对比

|------|----------|------------|----------|----------|

| E2B | 2B | 128K | 是 | 移动/IoT 设备 |

| E4B | 4B | 128K | 是 | 边缘设备 |

| 26B-A4B | 3.8B (MoE) | 256K | 否 | 高效推理 |

| 31B | 31B | 256K | 否 | 旗舰性能 |

核心基准测试对比

|----------|-------------|-----------------|---------------|--------------|

| MMLU Pro | 85.2% | 82.6% | ~74.3% | - |

| GPQA Diamond | 84.3% | 82.3% | ~74.3% | - |

| AIME 2026 | 89.2% | 88.3% | - | ~48.7%* |

| LiveCodeBench | 80.0% | 77.1% | - | ~43%* |

*注：Qwen 3.5 数据为 AIME 2025 和 LiveCodeBench v5 测试结果，版本不同仅供参考。*

Google 发布 Gemma 4：4B 参数模型数学能力逼近 90%，开源模型格局生变

从落后到领先：一个月内的格局逆转

小参数模型的能力边界被重新定义

MoE 架构的效率突破

与竞品的差异化定位

对开发者的实际意义

阿逸

发表回复取消回复

从落后到领先：一个月内的格局逆转

小参数模型的能力边界被重新定义

MoE 架构的效率突破

与竞品的差异化定位

对开发者的实际意义

阿逸

相关文章

库克承认苹果手表必须一天一充

现代汽车推出“现代 N 赛车模拟器”，核心为索尼 PS5 主机

后索尼HMZ时代，大疆要接手头戴显示器市场

发表回复取消回复