基于逐步单调注意力的神经 TTS 鲁棒序列到序列声学建模
本文提出了一种前向注意力机制的序列到序列的语音合成声学建模方法,该方法基于从电话序列到声学序列的单调对齐的自然属性,并使用前向算法递归地计算每个时间步长的修改后的注意力概率。实验结果表明,前向注意力方法具有更快的收敛速度和更高的稳定性。此外,过渡代理可以有效地提高合成语音的自然性,并控制合成语音的速度。
Jul, 2018
研究提出一种可用于在线设置中,使得注意力机制在线性时间内计算的可微分方法,- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题,并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。
Apr, 2017
基于大型语言模型(LLM)的文本到语音(TTS)系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力,但是基于 LLM 的 TTS 模型并不稳健,因为生成的输出可能包含重复的词、缺失的词和错位的语音(即幻觉或注意力错误),特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战,并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健,我们提出了利用 CTC 损失和关注先验的技术,以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数,并显著改善了基于 LLM 的 TTS 模型的稳健性。
Jun, 2024
本文针对常见的字符级字符串转换任务,如字形到音素转换和形态变化,探讨单调性是否真的是这些任务中的有益归纳偏差,提出了一种强制严格单调性的硬注意力序列到序列模型,并结合动态规划精确计算所有单调位置对齐的边际化,取得了形态变化方面的最新成果。
May, 2019
本文研究自然语言处理中序列到序列任务的单调注意力特性,并介绍了一种与标准注意力机制兼容的单调损失函数,经过实验表明可以在一定程度上实现单调性,但性能的提升并不是非常显著。
Apr, 2021
研究将稀疏和单调注意力引入基于 Transformer 的自动语音识别,以克服传统 Transformer 中针对流式识别的自我注意和多头注意的局限性,并在多项基准测试中取得了良好的效果。
Sep, 2022
研究了字符串之间的转换,提出了一个新的算法基于神经再参数化古典的 IBM Model 1 模型,证明了难处理的非单调注意力在这项任务上也可以用硬式处理来解决。
Aug, 2018
本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习(Seq2Seq)方法,用于语音转换(VC)任务。该方法稳定加速了训练过程,并且不需要预先对源和目标语音数据进行时间对齐。在实验中,与高斯混合模型(GMM)和循环神经网络(RNN)相比,我们提出的 VC 框架仅需一天时间训练,可以达到接近于 RNN 提供的语音合成质量的水平。
Nov, 2018