CVPRApr, 2024

合成数据应对多模态语音和手势合成中的数据短缺问题

TL;DR人机交互中通过文字合成语音音频和共同语音三维手势运动的方法是一个新兴的领域。本研究提出了通过合成附加训练材料的简单解决方案来解决数据短缺问题,并通过引入更好和可控的韵律建模的新合成架构来改善多模态模型的合成质量。