Phenaki —— 从文本到视频的生成模型
核心功能
- Phenaki能够根据文本提示生成视频,这些提示可以随时间变化,视频长度可以长达数分钟。
示例故事
- 网站展示了几个由文本提示生成的视频故事,例如泰迪熊在旧金山的海洋中游泳、宇航员在火星上行走等。
交互式示例
- 用户可以选择不同的上下文词组合,以创建关于宇航员的视频。
从静态图像和提示生成视频
- 输入包括第一帧图像和文本提示,模型据此生成视频。
2分钟视频
- 通过一系列文本提示,使用早期版本的模型生成了一个2分钟的故事视频。
技术摘要
- Phenaki是一个能够根据文本序列生成真实感视频的模型。由于计算成本、高质量文本-视频数据的有限数量以及视频长度的可变性,从文本生成视频尤其具有挑战性。
- 为了解决这些问题,研究者介绍了一种新的因果模型,用于学习视频表示,该模型将视频压缩成离散标记的小表示。
- 使用双向掩蔽变换器根据预先计算的文本标记生成视频标记。然后,生成的视频标记被解标记以创建实际的视频。
- 为了解决数据问题,研究者展示了如何通过在大量图像-文本对语料库和较少数量的视频-文本示例上进行联合训练,可以实现超出视频数据集所提供内容的泛化。
- 与以前的视频生成方法相比,Phenaki能够根据一系列提示(即可变文本或故事)在开放领域中生成任意长度的视频。据研究者所知,这是第一次有论文研究从时间变化的提示中生成视频。
- 此外,所提出视频编码器-解码器在时空质量和每个视频的标记数量方面,超越了文献中目前使用的所有逐帧基线。
阅读论文
- 网站提供了链接,供用户阅读有关Phenaki的详细研究论文。
Phenaki代表了视频生成技术的一大进步,能够根据文本提示生成具有丰富细节和时间连贯性的视频内容。如果您对Phenaki有进一步的兴趣或问题,请随时告诉我。
数据统计
数据评估
关于Phenaki特别声明
本站 Ai工具箱 提供的Phenaki都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由Ai工具箱实际控制,在2024-09-10 21:24收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,Ai工具箱不承担任何责任。
相关导航
走过万里,足下留香...