ICCVSep, 2023

生动演讲者:走向语义感知的共同语言手势生成

TL;DR通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。