开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

文章标题:开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

摘要:

  • 一个名为 Reflection 70B 的新开源大模型在AI领域引起轰动,由一个小型创业团队开发。
  • 该模型采用创新的训练技术 Reflection-Tuning,使AI能在推理过程中主动发现并纠正自身的错误和幻觉。
  • 在数学基准测试GSM8K中,Reflection 70B取得了99.2%的高分,超越了包括GPT-4o在内的其他顶尖模型。
  • 该模型的出色表现甚至引发了OpenAI科学家Noam Brown的讨论,他质疑是否应该淘汰GSM8K基准。
  • Reflection 70B模型的权重已经公开,并且Hyperbolic Labs将提供API访问。
  • 该模型不仅能够纠正数r测试中的错误,还能识别并纠正GSM8K数据集中本身答案错误的问题。
  • 背后的团队由HyperWriteAI的CEO Mutt Shumer领导,他是一位连续创业者,拥有丰富的AI应用开发经验。
  • 官方计划下周发布更大的模型 Reflection 405B,预计性能将大幅优于现有模型。
  • 目前,Reflection 70B的试玩平台已经上线,尽管在高峰时段可能会暂时无法访问。

文章链接:点击访问

© 版权声明

相关文章

暂无评论

走过万里,足下留香...