Aug, 2023

文本到视频:适用于零样本身份不可知的说话头像生成的两阶段框架

TL;DR本文提出了一种新颖的两阶段框架,用于人物无关视频克隆,特别关注文本转视频生成。在第一阶段,我们利用预训练的零样本模型实现文本转语音转换。第二阶段采用音频驱动的说话人生成方法,根据第一阶段生成的音频产生引人注目的视频。该论文对不同的文本转语音和音频驱动的说话人生成方法进行了比较分析,确定了最有前景的研究和开发方法。