Jun, 2023

视觉感知的文本转语音

TL;DR本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。