QbitAI字节和浙大联合研发的项目Loopy火了

QbitAI字节和浙大联合研发的项目Loopy火了

“Loopy”,这是一个音频驱动的视频生成模型,能够通过一帧图像和一段音频生成非常自然的视频。

文章中提到了一些令人印象深刻的DEMO视频,比如让小李子(莱昂纳多·迪卡普里奥)唱《黑神话》中的陕北说书,让兵马俑说英伦腔,以及让蒙娜丽莎张口说话等。这些视频展示了Loopy在生成自然动作和表情方面的能力。

Loopy的技术框架由四部分组成:

  1. ReferenceNet:提取参考图像特征的网络模块。
  2. DenoisingNet:负责从噪声输入生成最终视频帧的去噪U-Net。
  3. Appearance:接收参考图像和运动帧图像,将它们压缩成潜在向量。
  4. Audio:使用Wav2Vec网络提取音频特征,并与视觉特征结合。

文章还提到了另一个项目“CyberHost”,它是一个端到端音频驱动的人类动画模型。

最后,文章提供了Loopy和CyberHost的论文和项目地址,供感兴趣的读者进一步了解。

如果您对这篇文章有更具体的问题或需要更多信息,请告诉我,我会尽力帮助您。

© 版权声明

相关文章

暂无评论

走过万里,足下留香...