复旦大学团队发布Hallo多模态模型，首个音频驱动的人脸视频生成模型

显示全部楼层 · 发表于 2024-7-14 14:58:43

本帖最后由世界和平于 2024-7-14 15:01 编辑

复旦大学与百度联合发布了一个名为"Hallo"的音频驱动的人脸视频生成模型，并在公开的学术论文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中进行了详细介绍。作为首个基于扩散技术实现端到端高逼真人脸视频生成的开源项目，Hallo模型允许用户仅通过提供音频和选定的人像，即可轻松生成高度逼真的人脸视频。这一技术的推出标志着数字人视频生成领域的一项重大突破。Hallo模型已经发布在了始智AI wisemodel.cn开源社区。

交流讨论

复旦大学团队发布Hallo多模态模型，首个音频驱动的人脸视频生成模型

本帖子中包含更多资源