谷歌 DeepMind 发布 Gemma 2 2B 小模型,性能超越 GPT-3.5

热点资讯4个月前更新 时间煮雨
2,082 00
谷歌 DeepMind 发布 Gemma 2 2B 小模型,性能超越 GPT-3.5


谷歌 DeepMind 发布 Gemma 2 2B 小模型,性能超越 GPT-3.5

谷歌 DeepMind 最新推出了 Gemma 2 2B,一个从 Gemma 2 27B 蒸馏而来的小型模型,尽管只有 2.6B 参数,但其在 LMSYS 竞技场的得分超越了 GPT-3.5 和 Mixtral 8x7B。Gemma 2 2B 在 MMLU 和 MBPP 基准测试中分别取得了 56.1 和 36.6 的高分,性能比前代 Gemma 1 2B 提升超过 10%。

谷歌同时公布了 Gemma 2 家族的三个新成员:

  • Gemma 2 2B:轻量级模型,实现了性能与效率的平衡。
  • ShieldGemma:安全内容分类器模型,用于过滤 AI 模型的输入和输出。
  • Gemma Scope:可解释性工具,提供模型内部运行机制的洞察。

Gemma 2 2B 特别适合端侧部署,量化后的模型在 iPhone 15 Pro 上的 MLX Swift 运行速度快。模型通过 NVIDIA TensorRT-LLM 优化,支持各种平台部署,包括云、本地工作站、PC 和边缘设备。

此外,Gemma 2 2B 无缝集成了多种机器学习框架和工具,可在 Google Colab 的免费 T4 GPU 上运行,降低了开发门槛。开发者可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重,或在 Google AI Studio 中试用。

ShieldGemma 专注于检测和减少 AI 输出中的有害内容,而 Gemma Scope 通过开源稀疏自编码器提供模型内部工作的透明度,帮助研究人员和开发者理解 Gemma 2 模型的决策过程。

谷歌 DeepMind 还发布了一份 20 页的技术报告,详细介绍了 Gemma Scope 的创新点和如何解读语言模型的内部运作机制。


摘要旨在提供文章的关键信息,同时保持简洁。

来源:IT之家【阅读原文】

© 版权声明
阿里云ECS “99套餐” 双11特惠 36元/年

相关文章

暂无评论

none
暂无评论...