该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型,用已经预训练好的解码器初始化视频到语音合成任务的音频解码器,从而改进生成器的质量和重构的语音质量。
Jun, 2023
本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR,利用大规模合成数据进行半监督学习,在公开数据集上实现了最新的性能。
Mar, 2023
本篇论文提出了一种基于跨模态知识转移的多说话人视频朗读合成系统,利用向量量化及对比预测编码来导出获得离散类音素的声学单元,利用 Lip-to-Index 网络推断声学单元的索引序列,并利用说话人编码器来产生说话人表示,以有效地控制生成语音的说话人身份。经过广泛的评估验证,该方法在生成具有高自然度、易懂度和说话人相似度的高质量语音方面具有最先进的性能。
Feb, 2022
RobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。
Jul, 2023
本文提出了一种新型 Lip-to-Speech 合成(L2S)框架,采用量化的自监督语音表示作为 L2S 模型的另一个预测目标,从而实现了强内容监督的多目标 L2S 模型训练,并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形,并经过实验证实了该方法在 L2S 领域的有效性。
May, 2023
本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别,通过优化模型设计和参数, 加入额外任务,并增加数据扩充,提高模型性能,实现在不同语言下超越以前的所有基于公开数据集的模型表现,并比训练基于非公开数据集的模型表现更好。
基于 Lip2Vec 的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到对应的音频潜在表示,以实现有效的文本解码。利用现成的音频语音识别(ASR)模型将生成的音频表示解码为文本,该方法在 LRS3 数据集上实现了 26 的错误率(WER),并在 VoxCeleb 测试集上保持了合理的性能,为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。
Aug, 2023
使用视频和音频输入进行视频转语音合成的研究,通过使用预训练的视频转语音模型来合成缺失的语音信号,并训练一个音频 - 视觉 - 语音合成模型,通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明,在以原始波形和 mel 频谱图作为目标输出的情况下,这种方法是成功的。
本文利用深度学习算法,通过从口型信息中提取语音声学特征进行语音的合成,从而改善无声视频中语音恢复的质量。
Apr, 2020
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。
Mar, 2024