研究:反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

牛津大学的伊利亚·舒梅洛夫博士及其团队在《自然》杂志上发表了一项研究,指出当生成式AI软件仅依赖于AI生成的内容进行训练时,其回答的质量会逐渐恶化。这种现象被称为“模型崩溃”,即AI在不断使用自身生成的数据进行训练后,输出的内容会逐渐偏离现实,最终变得毫无价值。

研究中发现,在经过几次查询后,AI生成的答案开始失去准确性,到第九次连续查询时,内容已退化为无意义的胡言乱语。模型崩溃最初影响的是那些代表性不足的数据,随后会影响输出的多样性,并可能掩盖对多数数据的微小改进。

为验证这一现象,研究人员使用预训练的AI驱动维基百科,让AI模型基于自己生成的内容进行更新。结果发现,受污染的数据逐渐侵蚀了原本的训练集,导致输出的信息变得难以理解。

研究还提到,如果互联网上的人类生成数据被AI过滤内容迅速覆盖,AI可能正在自我毁灭,同时也在毁灭互联网。为实现AI的长期可持续发展,必须确保AI能够访问现有的非AI生成内容,并持续引入新的人工生成内容。

来源:IT之家【阅读原文】

© 版权声明

相关文章

暂无评论

走过万里,足下留香...