大规模无监督音频预训练用于视频到语音合成

Jun, 2023

大规模无监督音频预训练用于视频到语音合成

Large-scale unsupervised audio pre-training for video-to-speech synthesis

Triantafyllos Kefalas, Yannis Panagakis, Maja Pantic

TL;DR该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Abstract

video-to-speech synthesis is the task of reconstructing the speech signal from a silent video of a speaker. Most established approaches to date involve a two-step process, whereby an intermediate representation from the video, such as a spectrogram, is extracted first and then passed t

video-to-speech synthesis end-to-end synthesis encoder-decoder models pre-training audio-only datasets

发现论文，激发创造

通过生成的音频实现音频视觉视频到语音合成

使用视频和音频输入进行视频转语音合成的研究，通过使用预训练的视频转语音模型来合成缺失的语音信号，并训练一个音频 - 视觉 - 语音合成模型，通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明，在以原始波形和 mel 频谱图作为目标输出的情况下，这种方法是成功的。

Jul, 2023

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

利用生成对抗网络进行视频驱动的语音重建

本文提出了一种基于生成式对抗网络（GANs）的、直接从无声视频中合成自然语音的端到端模型，能够根据视频内容生成与其同步的语音，并在 GRID 数据集上进行了性能评估，实现了从视频到裸音频的首次直接映射，并能够识别新演讲者的语音，并在音质和准确性方面对生成的音频进行评价。

Jun, 2019

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

基于样本自编码器的无监督音频视觉合成

该论文提出了一种无监督方法，可以将任何个人的输入语音转换为无限数量的输出扬声器的音频可视化流，并使用先例自编码器学习特定目标样本语音的声音、风格韵律和视觉外观，它可以很容易地扩展到任意数量的扬声器和风格，而无需对输入扬声器进行任何训练数据。

Jan, 2020

可扩展视频语音合成

本文提出了一种可扩展的视频到语音综合框架，利用自我监督学习的方法，通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形，显着优于以往方法，并在 LRS3 数据集上首次展示令人满意的结果。

May, 2022

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

半监督训练以提高端到端语音合成的数据效率

本文提出了一种半监督的训练框架来提高 Tacotron 数据效率，通过利用大量的公开文本和语音语料库的文本和声学知识，该框架使 Tacotron 能够使用不到半小时的配对训练数据生成可理解的语音。

Aug, 2018