CVPRMar, 2023

音频驱动共话手势生成的扩散模型驯服

TL;DR本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平衡,实现了高保真的音频驱动共话手势生成。