CVPRApr, 2024

通过运动解耦扩散模型生成共说手势视频

TL;DR本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。