具有高鲁棒性的节奏可控长句语音合成的注意力机制
本文介绍了一种基于 Tacotron 2 的非注意力 Tacotron 模型,用显式的持续时间预测器替代了注意力机制,从而显著提高了稳健性检测度量,并通过使用预先训练的语音识别模型引入两个指标进行大规模稳健性评估。
Oct, 2020
本文介绍了一种基于注意力机制和零样本说话人自适应技术,在语音克隆技术中可以从几秒钟的参考语音中复制目标语音,从而实现长话语的普遍化,并且可以保持较高的自然度和相似性。
Jan, 2022
该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架,该框架结合了前向和算法、维特比算法和简单有效的静态先验,可提高 TTS 模型的对齐收敛速度,并使模型对长语音的错误更加鲁棒,从而提高口头合成的质量。
Aug, 2021
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
基于大型语言模型(LLM)的文本到语音(TTS)系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力,但是基于 LLM 的 TTS 模型并不稳健,因为生成的输出可能包含重复的词、缺失的词和错位的语音(即幻觉或注意力错误),特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战,并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健,我们提出了利用 CTC 损失和关注先验的技术,以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数,并显著改善了基于 LLM 的 TTS 模型的稳健性。
Jun, 2024
本研究提出一种简单的位置相对注意力机制,可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题,并比较了 GMM-based 和加性能量 based 等两种注意力机制,最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。
Oct, 2019
提出了一种基于步骤单调注意力方法,将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中,以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。
Jun, 2019
本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型,并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点,并且在噪声环境下表现出色, 是当前状态下最新的结果。
Sep, 2018
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018