Sep, 2023

基于扩散的联合文本和音频表征的共语言手势生成

TL;DR本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。