阿里推声画同步框架EMO 图片加音频生成对口型视频 EMOte Portrait Alive

最近，阿里巴巴智能计算研究所提出了一项名为EMO的新生成式框架。这个框架可以通过输入图片和音频来生成具有表现力的视频，使得视频中的嘴型与声音保持匹配。EMO技术支持多语言、对话、歌唱以及快节奏语音的应用，并且可能会被一些不法分子用于制作虚假内容，因此名人需要引起警惕。

阿里巴巴的EMO: 是一款生成具有表情丰富的面部表情视频的工具，可以根据输入的角色图像和声音音频生成各种头部姿势和表情的声音头像视频。支持多语言歌曲和各种肖像风格，能够根据音频节奏生成动态、表现丰富的动画角色。

需求人群：
“适用于艺术家、创作者、视频制作人等需要生成具有表情丰富的面部表情视频的用户”
使用场景示例：
艺术家使用 EMO 将肖像转化为具有表情的动态视频
视频制作人利用 EMO 为不同语言歌曲添加生动的表情角色
跨文化艺术表演者使用 EMO 进行跨语言表演

产品特色：
根据输入的角色图像和声音音频生成具有表情丰富的面部表情视频
支持多语言歌曲和肖像风格
能够根据音频节奏生成动态、表现丰富的动画角色
适用于生成肖像视频、艺术创作、跨语言表演等场景

EMO框架包含两个主要阶段：首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征；其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，同时结合多帧噪声和面部区域掩码生成头像。在这个过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调整运动速度。

除了支持

多语言歌曲和不同风格的头像生成外，EMO还可以处理歌唱、对话等各种场景。它能够根据输入音频的长度生成不同时长的视频，并在长时间内保持角色身份特征的稳定性。此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这项研究对头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。EMO不仅可应用于娱乐产业，还可在学术研究和教育培训等领域发挥关键作用。然而，需要注意的是，目前该框架仅用于学术研究和效果演示，并需进一步优化和扩展其应用范围。

文章版权归原作者所有，如遇到侵权行为请与我们联系。

暂无评论

您必须登录才能参与评论！

暂无评论...