使用序列到序列建模从静默视频合成音频

Apr, 2024

使用序列到序列建模从静默视频合成音频

Synthesizing Audio from Silent Video using Sequence to Sequence Modeling

Hugo Garrido-Lestache Belinchon, Helina Mulugeta, Adam Haile

TL;DR使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频，以改进与音频视觉媒体的交互，包括 CCTV 镜头分析、历史视频恢复和视频生成模型。

Abstract

Generating audio from a video's visual context has multiple practical applications in improving how we interact with audio-visual media - for example, enhancing cctv footage analysis, restoring historical videos

audio generation video sequence-to-sequence model 3d vector quantized variational autoencoder cctv footage analysis

发现论文，激发创造

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

通过生成的音频实现音频视觉视频到语音合成

使用视频和音频输入进行视频转语音合成的研究，通过使用预训练的视频转语音模型来合成缺失的语音信号，并训练一个音频 - 视觉 - 语音合成模型，通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明，在以原始波形和 mel 频谱图作为目标输出的情况下，这种方法是成功的。

Jul, 2023

学习生成寂静视频的逼真音频的初步探索

通过深度学习的框架及改进的人工音频生成技术，本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构，其中基于 Transformer 的架构效果最为优秀，能有效地匹配低频的视觉模式，但在生成细微波形方面表现不佳。

Aug, 2023

Vid2speech：从无声视频中重建语音

该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Jan, 2017

从无声视频中改善语音重构

本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Aug, 2017

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

鲁棒单张音频到视频生成

本研究提出了一种名为 OneShotA2V 的新方法，该方法利用具有表现性面部组件的运动的课程学习，仅使用一个听觉信号和一个未见过的个人图像，生成任意长度的交谈人视频，实验评估表明该方法在多个量化指标上表现优越。

Dec, 2020

音频到视觉潜在对齐的声音转视觉场景生成

本文提出了一种通过声音生成场景图像的方法，采用了深度学习等技术，结合声音定位和跨模态信息对齐来提高图像生成质量，并在相关数据集上得到了较好结果。

Mar, 2023

FoleyGAN：基于视觉引导的生成对抗网络同步静默视频音效生成

本研究提出了一种基于深度学习的视听生成模型，通过使用时间上的视觉信息来引导生成模型输出音频，以适应视听模态之间的同步性，该模型能够生成逼真的视听同步音轨，并且在人员调查和统计实验中的表现优于其他基线模型和已有的视听数据集。

Jul, 2021