谷歌 DeepMind 发布 Gemma 2 2B 小模型，性能超越 GPT-3.5

5,679 00

谷歌 DeepMind 发布 Gemma 2 2B 小模型，性能超越 GPT-3.5

谷歌 DeepMind 最新推出了 Gemma 2 2B，一个从 Gemma 2 27B 蒸馏而来的小型模型，尽管只有 2.6B 参数，但其在 LMSYS 竞技场的得分超越了 GPT-3.5 和 Mixtral 8x7B。Gemma 2 2B 在 MMLU 和 MBPP 基准测试中分别取得了 56.1 和 36.6 的高分，性能比前代 Gemma 1 2B 提升超过 10%。

谷歌同时公布了 Gemma 2 家族的三个新成员：

Gemma 2 2B：轻量级模型，实现了性能与效率的平衡。
ShieldGemma：安全内容分类器模型，用于过滤 AI 模型的输入和输出。
Gemma Scope：可解释性工具，提供模型内部运行机制的洞察。

Gemma 2 2B 特别适合端侧部署，量化后的模型在 iPhone 15 Pro 上的 MLX Swift 运行速度快。模型通过 NVIDIA TensorRT-LLM 优化，支持各种平台部署，包括云、本地工作站、PC 和边缘设备。

此外，Gemma 2 2B 无缝集成了多种机器学习框架和工具，可在 Google Colab 的免费 T4 GPU 上运行，降低了开发门槛。开发者可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重，或在 Google AI Studio 中试用。

ShieldGemma 专注于检测和减少 AI 输出中的有害内容，而 Gemma Scope 通过开源稀疏自编码器提供模型内部工作的透明度，帮助研究人员和开发者理解 Gemma 2 模型的决策过程。

谷歌 DeepMind 还发布了一份 20 页的技术报告，详细介绍了 Gemma Scope 的创新点和如何解读语言模型的内部运作机制。

摘要旨在提供文章的关键信息，同时保持简洁。

来源：IT之家【阅读原文】