语音增强的语言建模用于文本到语音合成

Jun, 2024

语音增强的语言建模用于文本到语音合成

Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis

Kun Zhou, Shengkui Zhao, Yukun Ma, Chong Zhang, Hao Wang...

TL;DR我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。

Abstract

Recent language model-based text-to-speech (TTS) frameworks demonstrate scalability and in-context learning capabilities. However, they suffer from robustness issues due to the accumulation of errors in speech un

language model text-to-speech phonetic enhanced autoregressive training tts models

发现论文，激发创造

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

非自回归语音合成的分层韵律建模

分析了不同韵律建模设置下的非自回归 TTS 模型行为，并提出了一种层次结构，其中基于单词级韵律特征来预测音素级韵律特征的方法，该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。

Nov, 2020

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

TTS-by-TTS: 基于 TTS 的数据增强技术，实现快速高质量语音合成

本文提出了一种基于 TTS 的数据增强方法，用于改进非自回归 TTS 系统的质量，实验表明该方法显著提高了非自回归 TTS 系统的质量。

Oct, 2020

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

无监督自回归模型用于语音表示学习

本文提出了一种新颖的无监督自回归神经模型，用于学习通用的语音表示，通过无需音素或单词边界标签的方法，从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能，并且我们的分析表明，不同级别的语音信息由我们的模型在不同层次上捕获。

Apr, 2019

Pheme：高效且会话式的语音生成

在这项研究中，我们介绍了 Pheme 模型系列，它提供了紧凑而高性能的模型，能够并行生成自然对话式语音，并且可以高效地在较小规模的对话数据上进行训练，降低数据需求 10 倍以上，但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单的教师 - 学生蒸馏，在预训练的 Pheme 检查点的基础上，通过仅依靠更大的教师模型生成的合成语音，在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。

Jan, 2024

PATCorrect：非自回归音素增强 Transformer 用于 ASR 误差校正

本文提出了一种基于 Transformer 模型和音素编码器的新型非自回归（NAR）纠错方法，该方法通过减少单词错误率（WER）来提高转录质量，并在不同的上游 ASR 系统中实现了鲁棒性能，特别是在 GPU 硬件上实现了与其他 NAR 模型相当的推断延迟，并且比自回归模型快 4.2-6.7 倍。

Feb, 2023