ICCVAug, 2023

DiffV2S:基于扩散的带视觉引导的视频语音合成

TL;DR本文提出了一种新颖的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中仅生成丰富的说话者嵌入信息,并在推断时间不需要额外的音频信息。利用提取的视觉导向说话者嵌入表示,我们进一步开发了一种基于扩散的视频到语音合成模型 DiffV2S,该模型以这些说话者嵌入和从输入视频中提取的视觉表示为条件。所提出的 DiffV2S 不仅保留了输入视频帧中包含的音素细节,还创建了一个高度可理解的梅尔频谱图,在其中多个说话者的说话者身份都得到了保留。实验结果表明,DiffV2S 相较于之前的视频到语音合成技术取得了最先进的性能。