fairseq S^2: 一种可扩展且可集成的语音合成工具包

EMNLPSep, 2021

fairseq S^2: 一种可扩展且可集成的语音合成工具包

fairseq S^2: A Scalable and Integrable Speech Synthesis Toolkit

Changhan Wang, Wei-Ning Hsu, Yossi Adi, Adam Polyak, Ann Lee...

TL;DR本文介绍了 fairseq S^2，它是为语音合成设计的 fairseq 扩展，具备多种自回归和非自回归文本到语音模型及其多说话人变体。此外，还构建了多种预处理工具，以便使训练语音合成模型所需的数据更易获取。这篇论文还展示了一套自动度量标准，以方便进行快速的开发和分析。fairseq S^2 不仅具有为此扩展添加的特点，还受益于 fairseq 提供的可扩展性，并可以轻松地与该框架中提供的其他最先进的系统集成。

Abstract

This paper presents fairseq S^2, a fairseq extension for speech synthesis. We implement a number of autoregressive (AR) and non-AR text-to

fairseq s^2 speech synthesis autoregressive models preprocessing

发现论文，激发创造

fairseq S2T: 使用 fairseq 进行快速语音转文本建模

Fairseq S2T 是一款扩展 fairseq 的语音转文本建模工具，具备可扩展和可扩展性设计，提供端到端的工作流程，支持 RNN-based, Transformer-based 和 Conformer-based 模型，并可以无缝集成多任务学习或迁移学习中的机器翻译模型和语言模型。

Oct, 2020

fairseq: 一个快速、可扩展的序列模型开发工具包

fairseq 是一个开源的序列建模工具包，基于 PyTorch，支持在多个 GPU 和多台机器上训练自定义模型以进行翻译、摘要、语言建模和其他文本生成任务。

Apr, 2019

FastSpeech 2: 快速高質量的端到端文本轉語音

提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Jun, 2020

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020

S2S-FT: Fine-Tuning 预训练的 Transformer 编码器用于序列到序列学习

本文介绍了一个序列到序列微调工具 s2s-ft，采用预训练的双向 Transformer 进行条件生成任务，实现了三种序列到序列微调算法，替代计算昂贵的传统方法，实验结果表明，在多项抽象概括和问题生成基准测试中，s2s-ft 实现了强大的性能，并支持单语和多语自然语言生成任务。

Oct, 2021

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

使用即时数据增强技术改进序列到序列语音识别训练

本文研究了三种数据增强方法在两种序列到序列模型中对性能的影响，发现通过数据增强可以有效缓解过拟合问题并提高自动语音识别的性能。

Oct, 2019