热门

QbitAI字节和浙大联合研发的项目Loopy火了

热点资讯1年前发布时间煮雨

3,943 00

“Loopy”，这是一个音频驱动的视频生成模型，能够通过一帧图像和一段音频生成非常自然的视频。

文章中提到了一些令人印象深刻的DEMO视频，比如让小李子（莱昂纳多·迪卡普里奥）唱《黑神话》中的陕北说书，让兵马俑说英伦腔，以及让蒙娜丽莎张口说话等。这些视频展示了Loopy在生成自然动作和表情方面的能力。

Loopy的技术框架由四部分组成：

ReferenceNet：提取参考图像特征的网络模块。
DenoisingNet：负责从噪声输入生成最终视频帧的去噪U-Net。
Appearance：接收参考图像和运动帧图像，将它们压缩成潜在向量。
Audio：使用Wav2Vec网络提取音频特征，并与视觉特征结合。

文章还提到了另一个项目“CyberHost”，它是一个端到端音频驱动的人类动画模型。

最后，文章提供了Loopy和CyberHost的论文和项目地址，供感兴趣的读者进一步了解。

如果您对这篇文章有更具体的问题或需要更多信息，请告诉我，我会尽力帮助您。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

阿里云ECS “99套餐” 双11特惠 36元/年

相关文章

谷歌开放 HeAR AI 模型 API：1 亿条咳嗽声训练，辅助筛查、诊断和监测肺结核

谷歌开放 HeAR AI 模型 API：1 亿条咳嗽声训练，辅助筛查、诊断和监测肺结核

热点资讯 # HeAR AI # Salcit Technologies # 人工智能模型

1年前

05,4180

华为 Mate XT 三折叠手机搭载星闪连接技术，屏幕支持 90Hz 高刷

华为 Mate XT 三折叠手机搭载星闪连接技术，屏幕支持 90Hz 高刷

1年前

04,1310

苹果史上最小电脑 2024 款 Mac mini 正式发布

苹果史上最小电脑 2024 款 Mac mini 正式发布

1年前

06,9900

MAIA 新系统亮相：洞悉 AI 模型内在机制，审查其安全性

MAIA 新系统亮相：洞悉 AI 模型内在机制，审查其安全性

热点资讯 # MAIA # Multimodal Automated Interpretability Agent # 人工智能实验室（CSAIL）

2年前

05,4690

暂无评论

none

暂无评论...