基于流匹配的语音生成预训练

Oct, 2023

Generative Pre-training for Speech with Flow Matching

Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra...

TL;DR我们展示了一个单一的预训练生成模型可以适应不同的下游任务，并展示了其在语音增强、分离和合成方面的性能优于现有专家模型，为语音生成任务构建了一个基础模型。

Abstract

generative models have gained more and more attention in recent years for their remarkable success in tasks that required estimating and sampling data distribution to generate high-fidelity synthetic data. In speech

generative models speech pre-training speech enhancement neural vocoder

发现论文，激发创造

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

利用大规模预训练模型进行无需训练的深度伪造语音识别

通过使用大规模预训练模型，将音频深度伪造检测问题转化为说话人验证框架，利用被测声音样本和所声称身份的声音间的不匹配暴露假音频，实现了对广义能力的全面泛化。实验表明，基于预训练模型的检测器在内部数据上与监督方法不相上下，在外部数据上则大幅超越监督方法。

May, 2024

VoiceFlow：具有修正流匹配的高效文本到语音

VoiceFlow 是一种声学模型，利用修正流匹配算法实现高质量综合音频的有限采样步骤，比扩散对应模型具有更好的合成质量。

Sep, 2023

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

预训练特征引导扩散模型用于语音增强

通过整合频谱特征到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，结合确定性离散积分方法（DDIM）来简化抽样步骤，我们的模型提高了效率和语音增强质量，同时在两个不同信噪比的公共数据集上展示出最先进的结果，超越了其他基线方法在效率和稳健性方面。所提出的方法不仅优化了性能，还增强了实际部署能力，而不增加计算需求。

Jun, 2024

GRASS: 语音语义理解统一生成模型

该论文通过引入统一的端到端（E2E）框架，对语音语义理解任务进行了指令微调技术的探索，该框架在语音数据上生成与任务相关提示条件下的语义标签。实验证明，我们提出的模型在微调下游任务后显著优于最先进的模型，并且在零样本和少样本情况下取得了有竞争力的性能。为了促进未来对语音到语义任务的指令微调工作，我们发布了我们的指令数据集和代码。

Sep, 2023

基于韵律的无文本生成式语音语言建模

本文提出了一种基于多流 Transformer 和 HiFi-GAN 的韵律感知生成口语语言模型 (pGSLM)，利用韵律为生成式预训练提供了更好的理解和生成能力。实验结果表明，该模型可以显著提高韵律和内容建模，并能够生成自然、有意义和连贯的语音。

Sep, 2021

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

Voicebox: 多语言通用语音生成的文本引导技术大规模应用

Voicebox 是实现规模可扩展的非自回归流匹配模型，通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务，且在零样本 TTS 合成方面优于 VALL-E 模型。

Jun, 2023