作者 / Google DeepMind 研究副总裁 Clement Farabet 和 Google DeepMind 小组产品经理 Olivier Lacombe今天我们正式推出 Gemma 4 —— 这是我们迄今为止最智能的开放模型。Gemma 4 专为高级推理和智能体 (Agentic) 工作流而设计实现了单位参数下前所未有的智能水平。这一突破性进展源于社区的巨大推动力: 自第一代模型发布以来Gemma 的下载量已突破 4 亿次并构建了一个拥有超过 10 万个衍生模型且充满活力的 Gemmaverse 生态系统。我们密切关注开发者对 AI 未来愿景的渴望并以 Gemma 4 作为回馈: 依托 Apache 2.0 许可我们将这些突破性能力交到每一位创新者手中。△ 截至 4 月 1 日Arena.ai 的 Chat Arena 中开放模型的性能与参数规模对比。Gemma 4https://aistudio.google.com/prompts/new_chat?modelgemma-4-31b-itGemmaversehttps://deepmind.google/models/gemma/gemmaverse/Apache 2.0 许可https://goo.gle/gemma-4-apache-2Arena.aihttp://Arena.aiGemma 4 基于与 Gemini 3 相同的世界级研究和技术构建是您可以在自有硬件上运行的最强模型系列。它们与我们的 Gemini 模型相辅相成为开发者提供了业内最强大的开放工具与专有工具组合。业界领先的能力与移动优先的 AI我们共发布了四种不同规格的 Gemma 4: Effective 2B (E2B)、Effective 4B (E4B)、26B 混合专家模型 (MoE) 以及 31B Dense。全系列模型已不仅仅局限于简单的对话而是能够轻松处理复杂的逻辑和智能体工作流。Effective 2B (E2B)https://huggingface.co/gg-hf-gg/gemma-4-E2B-itEffective 4B (E4B)https://huggingface.co/gg-hf-gg/gemma-4-E4B-it26B 混合专家模型 (MoE)https://huggingface.co/gg-hf-gg/gemma-4-26B-A4B-it31B Densehttps://huggingface.co/gg-hf-gg/gemma-4-31B-it我们更大规格的模型在同等规模下展现出了顶尖的性能。其中31B 模型目前在行业标准的 Arena AI 文本排行榜上名列全球开放模型第 3 位26B 模型则名列第 6 位。在榜单中Gemma 4 的表现甚至超越了规模达其 20 倍的模型。对于开发者而言这种单位参数智能水平的新高度意味着只需极低的硬件开销即可获得前沿模型级别的能力。Arena AI 文本排行榜https://arena.ai/leaderboard/text?licenseopen-source在边缘侧我们的 E2B 和 E4B 模型重新定义了设备端的实用性它们优先考虑多模态能力、低延迟处理以及无缝的生态集成而非单纯追求参数规模。性能强劲触手可及全面开放为了赋能下一代开拓性研究和产品我们专门设计了 Gemma 4 的模型规模使其能够在各种硬件上高效运行和微调 —— 从全球数十亿台 Android 设备到笔记本电脑 GPU再到开发者工作站和加速器。借助这些深度优化的模型您可以微调 Gemma 4 以在特定任务上实现顶尖的性能。这种方法已取得显著成效: 例如INSAIT 构建了以保加利亚语为优先的语言模型 (BgGPT)我们还与耶鲁大学合作开展了 Cell2Sentence-Scale 项目用于探索癌症治疗的新途径。BgGPThttps://deepmind.google/models/gemma/gemmaverse/insait/Gemma 4 之所以能成为我们迄今最强大的开放模型系列归功于以下核心特质:高级推理: 能够进行多步规划和深度逻辑推理Gemma 4 在需要此类能力的数学和指令遵循基准测试中表现出显著的提升。智能体工作流: 原生支持函数调用 (Function-calling)、结构化 JSON 输出和原生系统指令助您构建能够与不同工具和 API 交互并稳定执行工作流的自主智能体。代码生成: Gemma 4 支持生成高质量的离线代码能够将您的工作站转变为本地优先的 AI 代码助手。视觉与音频: 所有模型均原生支持视频与图像处理支持可变分辨率并在 OCR (光学字符识别) 和图表理解等视觉任务中表现出色。此外E2B 和 E4B 模型还具备原生音频输入功能可用于语音识别和理解。更长的上下文: 可无缝处理长文本内容。边缘模型支持 128K 上下文窗口更大参数的模型则提供高达 256K 的支持让您可以在单次提示中处理整个代码库或长篇文档。支持 140 多种语言: Gemma 4 经过 140 多种语言的原生训练帮助开发者为全球用户构建包容、高性能的应用。适配各类硬件的灵活模型我们发布的 Gemma 4 模型权重针对特定硬件和使用场景进行了量身定制确保您随时随地都能获得顶尖的推理能力:26B 和 31B 模型:在个人电脑上实现离线的前沿智能体验我们未经量化的 bfloat16 权重可以高效适配单个 80GB NVIDIA H100 GPU旨在为研究人员和开发者在常用硬件上提供顶尖的推理能力。对于本地配置量化版本可在消费级 GPU 上原生运行为您的 IDE、编程助手和智能体工作流提供动力。我们的 26B 混合专家模型 (MoE) 专注于低延迟推理时仅激活 38 亿参数提供极快的每秒 Token 生成数而 31B Dense 则追求极致的原始质量为微调提供了强大的基础。△ 这些模型通过大量不同的数据集和指标进行了评估以涵盖文本生成的各个方面。请前往我们的 Model Card 中查看其他的基准测试。Model Cardhttps://ai.google.dev/gemma/docs/core/model_card_4?hlzh-cnE2B 和 E4B 模型:移动和物联网设备智能的新高度这些模型从底层开始构建旨在实现计算和内存效率的最大化在推理时分别激活 20 亿和 40 亿的有效参数以节省内存和延长电池寿命。通过与 Google Pixel 团队以及高通 (Qualcomm Technologies)、联发科 (MediaTek) 等移动硬件领军企业的紧密合作这些多模态模型可以在手机、树莓派 (Raspberry Pi)、NVIDIA Jetson Orin Nano 等边缘设备上实现近乎零延迟的完全离线运行。Android 开发者现在即可在 AICore 开发者预览版中原型化智能体流程实现与 Gemini Nano 4 的前向兼容。AICore 开发者预览版https://android-developers.googleblog.com/2026/03/AI-Core-Developer-Preview开源许可我们悉心听取了大家的反馈。构建 AI 的未来需要通力合作我们相信赋能开发者生态不应设限。因此Gemma 4 采用商业友好的 Apache 2.0 许可发布。Apache 2.0 许可https://goo.gle/gemma-4-apache-2这一开源许可为开发者实现充分的灵活性和数字主权奠定了基础赋予您对数据、基础架构和模型的完全控制权。它允许您在任何环境 (无论是本地部署还是云端) 中自由构建并安全部署。Gemma 4 采用 Apache 2.0 许可发布是一个巨大的里程碑。我们非常激动能在发布首日就在 Hugging Face 上支持 Gemma 4 系列。Clément DelangueHugging Face 联合创始人兼 CEO以信任与安全为基石和我们的专有模型一样这些模型遵循严苛的基础架构安全协议。通过选择 Gemma 4企业和主权组织可以获得一个值得信赖且透明的基础在满足最高安全和可靠性标准的同时交付顶尖的能力。多元选择的生态系统立即开始试验: 即刻获取 Gemma 4 访问权限并开始构建。在 Google AI Studio (31B 和 26B MoE) 或 Google AI Edge Gallery (E4B 和 E2B) 中探索 Gemma 4。在 Android 开发方面可使用它驱动 Android Studio 中的智能体模式 (Agent Mode)并开始使用 ML Kit GenAI Prompt API 构建可投入生产环境的 Android 应用。使用您喜爱的工具: 发布首日即支持 Hugging Face (Transformers, TRL, Transformers.js, Candle), LiteRT-LM, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM 和 NeMo, LM Studio, Unsloth, SGLang, Cactus, Baseten, Docker, MaxText, Tunix, Keras您可以根据项目需求灵活选择最合适的工具。下载模型: 前往 Hugging Face、Kaggle 或 Ollama 获取模型权重。根据您的特定需求定制 Gemma 4: 借助您首选的平台 (如 Google Colab、Vertex AI 甚至您的游戏 GPU) 对模型进行训练与适配。在 Google Cloud 上扩展至生产环境: 虽然本地设备端推理是离线使用的理想选择但 Google Cloud 打破了所有算力瓶颈。您可以根据需求通过 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速推理服务进行部署并获得针对受监管工作负载的最高级别合规保障。您可以进一步了解如何在 Google Cloud 上快速入门。跨多硬件平台加速 AI 开发: Gemma 4 针对业界领先的硬件进行了优化实现开箱即用。您可以在从 NVIDIA Jetson Orin Nano 到 Blackwell GPU 的 NVIDIA AI 基础设施上体验极致性能通过开源 ROCm™ 栈与 AMD GPU 集成或在 Trillium 和 Ironwood TPU 上进行大规模部署和高效运算。以技术创造深远影响: 参加 Kaggle 上的 Gemma 4 Good 挑战赛构建能够为世界带来深远且积极影响的作品。Google AI Studiohttps://aistudio.google.com/prompts/new_chat?modelgemma-4-31b-itAI Edge Galleryhttps://play.google.com/store/apps/details?idcom.google.ai.edge.galleryAndroid 开发http://android-developers.googleblog.com/2026/03/gemma-4-new-standard-for-local-agentic-intelligence.htmlAndroid Studiohttp://android-developers.googleblog.com/2026/04/android-studio-supports-gemma-4-local.htmlML Kit GenAI Prompt APIhttps://android-developers.googleblog.com/2026/03/AI-Core-Developer-PreviewHugging Facehttps://huggingface.co/blog/gemma4LiteRT-LMhttps://ai.google.dev/edge/litert-lm/overviewDockerhttps://hub.docker.com/r/ai/gemma4MLXhttps://huggingface.co/collections/mlx-community/gemma-4Ollamahttps://ollama.com/library/gemma4NVIDIA NIMhttps://build.nvidia.com/google/gemma-4-31b-itNeMohttps://github.com/NVIDIA-NeMo/Automodel/tree/main/docs/guides/vlm/gemma4.mdLM Studiohttps://lmstudio.ai/models/gemma-4Unslothhttps://unsloth.ai/docs/models/gemma-4Basetenhttps://www.baseten.co/library/publisher/gemma/Hugging Facehttps://huggingface.co/collections/google/gemma-4Kagglehttps://www.kaggle.com/models/google/gemma-4Ollamahttps://ollama.com/library/gemma4Vertex AIhttps://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma4Cloud Runhttps://codelabs.developers.google.com/codelabs/cloud-run/cloud-run-gpu-rtx-pro-6000-gemma4-vllmGKEhttps://docs.cloud.google.com/kubernetes-engine/docs/tutorials/serve-gemma-gpu-vllm如何在 Google Cloud 上快速入门https://cloud.google.com/blog/products/ai-machine-learning/gemma-4-available-on-google-cloudGemma 4 Good 挑战赛https://www.kaggle.com/competitions/gemma-4-good-hackathon欢迎您关注 谷歌开发者 微信公众号及时了解更多开发技术和产品更新等资讯动态