基于学习单调对齐来提高 LLM 语音合成的鲁棒性

Jun, 2024

基于学习单调对齐来提高 LLM 语音合成的鲁棒性

Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment

Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Rafael Valle...

TL;DR基于大型语言模型（LLM）的文本到语音（TTS）系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力，但是基于 LLM 的 TTS 模型并不稳健，因为生成的输出可能包含重复的词、缺失的词和错位的语音（即幻觉或注意力错误），特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战，并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健，我们提出了利用 CTC 损失和关注先验的技术，以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数，并显著改善了基于 LLM 的 TTS 模型的稳健性。

Abstract

large language model (LLM) based text-to-speech (TTS) systems have demonstrated remarkable capabilities in handling large speech datasets and generating natural speech for new speakers. However, LLM-based TTS models are not robust as the generated output can contain repeating words, mi

large language model text-to-speech systems encoder-decoder transformer model hallucinations guided attention training technique

发现论文，激发创造

Small-E：用线性注意力实现高效语音合成的小型语言模型

最近关于文本到语音合成（TTS）的研究表明，使用语言模型驱动的 TTS 展示了卓越的能力，能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器，并引入专门的交叉关注机制以减少重复和跳跃问题。结果，我们的架构能够在长音频样本上高效训练，并在相同规模的基准模型上实现最先进的零样本声音克隆。

Jun, 2024

基于逐步单调注意力的神经 TTS 鲁棒序列到序列声学建模

提出了一种基于步骤单调注意力方法，将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中，以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。

Jun, 2019

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

具有 CTC 嵌入的语言增强变压器模型用于语音识别

本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器，它通过在训练过程中将改进的 CTC 信息引入解码器，从而使其更加鲁棒，在 AISHELL-1 语音语料库上的实验表明，字符误差率（CER）减少了高达 7％，同时发现在联合 CTC-Attention ASR 模型中，解码器对语言信息比声学信息更敏感。

Oct, 2022

大型语言模型在语音合成中的提升：一项实证研究

本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Dec, 2023

Glow-TTS：通过单调对齐搜索的生成式流进行文本转语音

该论文提出 Glow-TTS，一种基于流的生成模型，用于并行 TTS，无需外部对齐器，并演示了其快速、多样化和可控的语音合成能力，是一种鲁棒的 TTS 模型。

May, 2020

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022