关键词video-to-speech synthesis
搜索结果 - 4
- ICCVDiffV2S:基于扩散的带视觉引导的视频语音合成
本文提出了一种新颖的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中仅生成丰富的说话者嵌入信息,并在推断时间不需要额外的音频信息。利用提取的视觉导向说话者嵌入表示,我们进一步开发了一种基于扩散的视频到语音合成 - 通过生成的音频实现音频视觉视频到语音合成
使用视频和音频输入进行视频转语音合成的研究,通过使用预训练的视频转语音模型来合成缺失的语音信号,并训练一个音频 - 视觉 - 语音合成模型,通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明,在以原始波形和 mel 频谱 - 大规模无监督音频预训练用于视频到语音合成
该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型,用已经预训练好的解码器初始化视频到语音合成任务的音频解码器,从而改进生成器的质量和重构的语音质量。
- 可扩展视频语音合成
本文提出了一种可扩展的视频到语音综合框架,利用自我监督学习的方法,通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形,显着优于以往方法,并在 LRS3 数据集上首次展示令人满意的结果。