可扩展视频语音合成

May, 2022

SVTS: Scalable Video-to-Speech Synthesis

Rodrigo Mira, Alexandros Haliassos, Stavros Petridis, Björn W. Schuller, Maja Pantic

TL;DR本文提出了一种可扩展的视频到语音综合框架，利用自我监督学习的方法，通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形，显着优于以往方法，并在 LRS3 数据集上首次展示令人满意的结果。

Abstract

video-to-speech synthesis (also known as lip-to-speech) refers to the translation of silent lip movements into the corresponding audio. This task has received an increasing amount of attention due to its self-sup

video-to-speech synthesis lip-to-speech self-supervised learning spectrogram prediction neural vocoder

发现论文，激发创造

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

SynthVSR: 利用合成监督扩大视觉语音识别的规模

本文研究使用合成口型运动数据提高视觉语音识别系统性能的方法。我们提出了一种基于语音驱动的口型动画模型 SynthVSR，利用大规模合成数据进行半监督学习，在公开数据集上实现了最新的性能。

Mar, 2023

VCVTS：通过语音转换跨模态知识转移进行多说话人视频到语音合成

本篇论文提出了一种基于跨模态知识转移的多说话人视频朗读合成系统，利用向量量化及对比预测编码来导出获得离散类音素的声学单元，利用 Lip-to-Index 网络推断声学单元的索引序列，并利用说话人编码器来产生说话人表示，以有效地控制生成语音的说话人身份。经过广泛的评估验证，该方法在生成具有高自然度、易懂度和说话人相似度的高质量语音方面具有最先进的性能。

Feb, 2022

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

使用语音单元的可懂嘴唇合成

本文提出了一种新型 Lip-to-Speech 合成（L2S）框架，采用量化的自监督语音表示作为 L2S 模型的另一个预测目标，从而实现了强内容监督的多目标 L2S 模型训练，并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形，并经过实验证实了该方法在 L2S 领域的有效性。

May, 2023

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

基于 Lip2Vec 的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到对应的音频潜在表示，以实现有效的文本解码。利用现成的音频语音识别（ASR）模型将生成的音频表示解码为文本，该方法在 LRS3 数据集上实现了 26 的错误率（WER），并在 VoxCeleb 测试集上保持了合理的性能，为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。

Aug, 2023

通过生成的音频实现音频视觉视频到语音合成

使用视频和音频输入进行视频转语音合成的研究，通过使用预训练的视频转语音模型来合成缺失的语音信号，并训练一个音频 - 视觉 - 语音合成模型，通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明，在以原始波形和 mel 频谱图作为目标输出的情况下，这种方法是成功的。

Jul, 2023

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024