Oct, 2023

基于流匹配的语音和手势综合

TL;DR利用自然语言处理技术,本文提出了一种新颖的统一架构,用于联合合成语音音质和基于骨骼的3D手势运动,通过优化传输条件流匹配(OT-CFM)进行训练。与现有技术相比,所提出的架构更简单,内存占用更小,能够捕捉语音和手势的联合分布,并在一个单一过程中生成两种模态。同时,新的训练机制在比以前更少的步骤(网络评估)中实现更好的合成质量。与现有基准相比,单模态和多模态主观测试证明了改进的语音自然度、手势人类类似度和跨模态的适宜性。