“Loopy”,这是一个音频驱动的视频生成模型,能够通过一帧图像和一段音频生成非常自然的视频。
文章中提到了一些令人印象深刻的DEMO视频,比如让小李子(莱昂纳多·迪卡普里奥)唱《黑神话》中的陕北说书,让兵马俑说英伦腔,以及让蒙娜丽莎张口说话等。这些视频展示了Loopy在生成自然动作和表情方面的能力。
Loopy的技术框架由四部分组成:
- ReferenceNet:提取参考图像特征的网络模块。
- DenoisingNet:负责从噪声输入生成最终视频帧的去噪U-Net。
- Appearance:接收参考图像和运动帧图像,将它们压缩成潜在向量。
- Audio:使用Wav2Vec网络提取音频特征,并与视觉特征结合。
文章还提到了另一个项目“CyberHost”,它是一个端到端音频驱动的人类动画模型。
最后,文章提供了Loopy和CyberHost的论文和项目地址,供感兴趣的读者进一步了解。
如果您对这篇文章有更具体的问题或需要更多信息,请告诉我,我会尽力帮助您。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
走过万里,足下留香...