利用生成对抗网络进行视频驱动的语音重建

Jun, 2019

利用生成对抗网络进行视频驱动的语音重建

Video-Driven Speech Reconstruction using Generative Adversarial Networks

Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic

TL;DR本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Abstract

Speech is a means of communication which relies on both audio and visual information. The absence of one modality can often lead to confusion or misinterpretation of information. In this paper we present an end-to-end temporal model capable of directly synthesising audio from silent video, without needing to transform to-and-from intermediate features. Our p

audio synthesis video-to-audio conversion gans speaker-independent audio recognition speech intelligibility

发现论文，激发创造

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

通过生成的音频实现音频视觉视频到语音合成

使用视频和音频输入进行视频转语音合成的研究，通过使用预训练的视频转语音模型来合成缺失的语音信号，并训练一个音频 - 视觉 - 语音合成模型，通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明，在以原始波形和 mel 频谱图作为目标输出的情况下，这种方法是成功的。

Jul, 2023

Vid2speech：从无声视频中重建语音

该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Jan, 2017

基于时间 GAN 的端到端语音驱动的面部动画

使用时间依赖的 GAN 模型和音视频同步的方法，实现了从原始音频和人物图像生成高质量且与个体无关的自然面部表情和嘴唇运动的视频。

May, 2018

用对抗网络实现高保真度语音合成

使用条件前馈生成器和多个鉴别器组成的架构，GAN-TTS 能够生成自然度与当前最先进的模型相当，而且可以高度并行化。同时，研究者还使用了主观人类评估及新型量化指标来评估 GAN-TTS 的性能。

Sep, 2019

使用序列到序列建模从静默视频合成音频

使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频，以改进与音频视觉媒体的交互，包括 CCTV 镜头分析、历史视频恢复和视频生成模型。

Apr, 2024

从无声视频中改善语音重构

本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Aug, 2017

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

利用 GAN 实现逼真的语音驱动面部动画

本文介绍了一种基于语音信号自动生成会说话的角色的方法，该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步，并且产生了自然的面部表情。

Jun, 2019