从无声视频中改善语音重构

ICCVAug, 2017

Improved Speech Reconstruction from Silent Video

Ariel Ephrat, Tavi Halperin, Shmuel Peleg

TL;DR本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Abstract

speechreading is the task of inferring phonetic information from visually observed articulatory facial movements, and is a notoriously difficult task for humans to perform. In this paper we present an end-to-end

speechreading phonetic information convolutional neural network reconstructed speech unconstrained dictionary

发现论文，激发创造

Vid2speech：从无声视频中重建语音

该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Jan, 2017

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

提高了的无声语音识别模型

本文提出了一种改进的模型，利用面部肌电图信号合成音频，并使用卷积层和 Transformer 层提取特征和传递信息，在预测语音音频特征的同时引入了辅助任务来提供更好的信号，实现了在开放词汇清晰度评估上表现出绝对提高了 25.8% 的最新技术水平。

Jun, 2021

Speech2Face：学习声音背后的面容

本研究旨在利用数百万自然互联网 / YouTube 视频中的人物语音，建立和训练一个深度神经网络模型，以在不需要明确建模人物面部外貌特征的情况下，从个人短音频录音中重建面部图像，通过自我监督，研究模型如何识别人物的年龄、性别和种族。

May, 2019

视觉语音增强

本研究使用基于视听神经网络的视觉语音增强方法，在包含有目标演讲者语音的视频背景噪音情况下，通过口型运动提高演讲者语音的清晰度，在嘈杂的环境中实现了语音增强和噪音降低效果，相较于先前的视听方法在两个公共的口形读音数据集上表现更好，同时也是第一个在面向非口形读音的数据集（如巴拉克・奥巴马每周的演讲）上进行的示例研究。

Nov, 2017

使用序列到序列建模从静默视频合成音频

使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频，以改进与音频视觉媒体的交互，包括 CCTV 镜头分析、历史视频恢复和视频生成模型。

Apr, 2024

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

无声视频中重建高质量语音

此研究提出了一种新颖的唇到语音系统，通过多个角度缓解一对多映射问题，包括引入自监督语音表示来消除同音异义词，并使用声学变异信息来建模多样的语音风格。此外，为了更好地解决上述问题，采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明，该方法实现了接近真实人类话语的语音生成质量，大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。

Aug, 2023