Vid2speech：从无声视频中重建语音

Jan, 2017

Vid2speech: Speech Reconstruction from Silent Video

Ariel Ephrat, Shmuel Peleg

TL;DR该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Abstract

speechreading is a notoriously difficult task for humans to perform. In this paper we present an end-to-end model based on a convolutional neural

speechreading end-to-end model convolutional neural network intelligible acoustic speech signal automatic feature learning

发现论文，激发创造

从无声视频中改善语音重构

本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Aug, 2017

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

使用序列到序列建模从静默视频合成音频

使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频，以改进与音频视觉媒体的交互，包括 CCTV 镜头分析、历史视频恢复和视频生成模型。

Apr, 2024

通过生成的音频实现音频视觉视频到语音合成

使用视频和音频输入进行视频转语音合成的研究，通过使用预训练的视频转语音模型来合成缺失的语音信号，并训练一个音频 - 视觉 - 语音合成模型，通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明，在以原始波形和 mel 频谱图作为目标输出的情况下，这种方法是成功的。

Jul, 2023

提高了的无声语音识别模型

本文提出了一种改进的模型，利用面部肌电图信号合成音频，并使用卷积层和 Transformer 层提取特征和传递信息，在预测语音音频特征的同时引入了辅助任务来提供更好的信号，实现了在开放词汇清晰度评估上表现出绝对提高了 25.8% 的最新技术水平。

Jun, 2021

Wav2Letter: 一种基于端到端的卷积神经网络语音识别系统

本论文提出一种简单的端对端语音识别模型，用卷积神经网络基于声学模型和图解码相结合，通过输出字母实现语音转录，无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练，不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率，并在原始波形上得到有希望的结果。

Sep, 2016

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

VisageSynTalk：通过语音面部特征选择，实现看不见的说话者的视频合成语音

该论文介绍了一种从无声说话人面部视频中重建语音的方法，该方法通过分离视频中的语音内容和面部特征，并采用基于面部特征的语音合成器来综合这些分离的表示，实现了即使给定未知主题的视频也能生成包含正确内容的语音。

Jun, 2022