CVPRMar, 2024

ConvoFusion: 多模态会话扩散用于同步语音手势合成

TL;DRConvoFusion 是一种基于扩散的多模态手势合成方法,通过两个引导目标实现了不同条件模态(例如音频与文本)的调节和重点单词的强调,在生成单语手势和对话式手势方面都具有多用途性。