基于逐步单调注意力的神经 TTS 鲁棒序列到序列声学建模

Jun, 2019

基于逐步单调注意力的神经 TTS 鲁棒序列到序列声学建模

Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Neural TTS

Mutian He, Yan Deng, Lei He

TL;DR提出了一种基于步骤单调注意力方法，将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中，以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。

Abstract

neural tts has demonstrated strong capabilities to generate human-like speech with high quality and naturalness, while its generalization to out-of-domain texts is still a challenging task, with regard to the design of attention-based →

neural tts sequence-to-sequence acoustic modeling attention-based modeling out-of-domain inputs stepwise monotonic attention

发现论文，激发创造

序列到序列声学建模中的前瞻注意力机制在语音合成中的应用

本文提出了一种前向注意力机制的序列到序列的语音合成声学建模方法，该方法基于从电话序列到声学序列的单调对齐的自然属性，并使用前向算法递归地计算每个时间步长的修改后的注意力概率。实验结果表明，前向注意力方法具有更快的收敛速度和更高的稳定性。此外，过渡代理可以有效地提高合成语音的自然性，并控制合成语音的速度。

Jul, 2018

通过强制单调对齐实现在线和线性时间注意力

研究提出一种可用于在线设置中，使得注意力机制在线性时间内计算的可微分方法，- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题，并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。

Apr, 2017

基于学习单调对齐来提高 LLM 语音合成的鲁棒性

基于大型语言模型（LLM）的文本到语音（TTS）系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力，但是基于 LLM 的 TTS 模型并不稳健，因为生成的输出可能包含重复的词、缺失的词和错位的语音（即幻觉或注意力错误），特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战，并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健，我们提出了利用 CTC 损失和关注先验的技术，以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数，并显著改善了基于 LLM 的 TTS 模型的稳健性。

Jun, 2024

基于 monotonic attention 的字符级转导的精确硬对齐

本文针对常见的字符级字符串转换任务，如字形到音素转换和形态变化，探讨单调性是否真的是这些任务中的有益归纳偏差，提出了一种强制严格单调性的硬注意力序列到序列模型，并结合动态规划精确计算所有单调位置对齐的边际化，取得了形态变化方面的最新成果。

May, 2019

偏向于单调性的 Transformer 注意力

本文研究自然语言处理中序列到序列任务的单调注意力特性，并介绍了一种与标准注意力机制兼容的单调损失函数，经过实验表明可以在一定程度上实现单调性，但性能的提升并不是非常显著。

Apr, 2021

基于 Transformer 的自适应稀疏和单调注意力自动语音识别

研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别，以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性，并在多项基准测试中取得了良好的效果。

Sep, 2022

单调块级注意力

本文介绍了一种名为 MoChA 的注意力机制，该机制可以将输入序列自适应地分成小块，以实现在线和线性时间解码，并在在线语音识别和文档摘要等任务中取得了良好的结果。

Dec, 2017

字符级转导的硬非单调注意力

研究了字符串之间的转换，提出了一个新的算法基于神经再参数化古典的 IBM Model 1 模型，证明了难处理的非单调注意力在这项任务上也可以用硬式处理来解决。

Aug, 2018

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015