谷歌 DeepMind 发布 Gemma 2 2B 小模型,性能超越 GPT-3.5
谷歌 DeepMind 最新推出了 Gemma 2 2B,一个从 Gemma 2 27B 蒸馏而来的小型模型,尽管只有 2.6B 参数,但其在 LMSYS 竞技场的得分超越了 GPT-3.5 和 Mixtral 8x7B。Gemma 2 2B 在 MMLU 和 MBPP 基准测试中分别取得了 56.1 和 36.6 的高分,性能比前代 Gemma 1 2B 提升超过 10%。
谷歌同时公布了 Gemma 2 家族的三个新成员:
- Gemma 2 2B:轻量级模型,实现了性能与效率的平衡。
- ShieldGemma:安全内容分类器模型,用于过滤 AI 模型的输入和输出。
- Gemma Scope:可解释性工具,提供模型内部运行机制的洞察。
Gemma 2 2B 特别适合端侧部署,量化后的模型在 iPhone 15 Pro 上的 MLX Swift 运行速度快。模型通过 NVIDIA TensorRT-LLM 优化,支持各种平台部署,包括云、本地工作站、PC 和边缘设备。
此外,Gemma 2 2B 无缝集成了多种机器学习框架和工具,可在 Google Colab 的免费 T4 GPU 上运行,降低了开发门槛。开发者可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重,或在 Google AI Studio 中试用。
ShieldGemma 专注于检测和减少 AI 输出中的有害内容,而 Gemma Scope 通过开源稀疏自编码器提供模型内部工作的透明度,帮助研究人员和开发者理解 Gemma 2 模型的决策过程。
谷歌 DeepMind 还发布了一份 20 页的技术报告,详细介绍了 Gemma Scope 的创新点和如何解读语言模型的内部运作机制。
摘要旨在提供文章的关键信息,同时保持简洁。
来源:IT之家【阅读原文】
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...