CVPRMar, 2022
学习层级跨模态关联以进行共同语音手势生成
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation
Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian...
TL;DR本文提出了一种名为 HA2G 的新框架,用于语音一致的身体和手势动作的生成。HA2G 使用分层音频学习器和分层姿势推理器提取并逐层渲染全身姿势,同时基于音频文本对齐的对比学习策略提高音频表示的质量,结果表明该方法生成的共语手势更逼真,比以往方法有更高的性能表现。