CVPRMar, 2022

学习层级跨模态关联以进行共同语音手势生成

TL;DR本文提出了一种名为 HA2G 的新框架,用于语音一致的身体和手势动作的生成。HA2G 使用分层音频学习器和分层姿势推理器提取并逐层渲染全身姿势,同时基于音频文本对齐的对比学习策略提高音频表示的质量,结果表明该方法生成的共语手势更逼真,比以往方法有更高的性能表现。