研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

1,926 00

牛津大学的伊利亚·舒梅洛夫博士及其团队在《自然》杂志上发表了一项研究，指出当生成式AI软件仅依赖于AI生成的内容进行训练时，其回答的质量会逐渐恶化。这种现象被称为“模型崩溃”，即AI在不断使用自身生成的数据进行训练后，输出的内容会逐渐偏离现实，最终变得毫无价值。

研究中发现，在经过几次查询后，AI生成的答案开始失去准确性，到第九次连续查询时，内容已退化为无意义的胡言乱语。模型崩溃最初影响的是那些代表性不足的数据，随后会影响输出的多样性，并可能掩盖对多数数据的微小改进。

为验证这一现象，研究人员使用预训练的AI驱动维基百科，让AI模型基于自己生成的内容进行更新。结果发现，受污染的数据逐渐侵蚀了原本的训练集，导致输出的信息变得难以理解。

研究还提到，如果互联网上的人类生成数据被AI过滤内容迅速覆盖，AI可能正在自我毁灭，同时也在毁灭互联网。为实现AI的长期可持续发展，必须确保AI能够访问现有的非AI生成内容，并持续引入新的人工生成内容。

文章版权归作者所有，未经允许请勿转载。

2年前

012,3700

1年前

03,7290

11个月前

03,1110

11个月前

02,4100

暂无评论

暂无评论...