具有高鲁棒性的节奏可控长句语音合成的注意力机制

Jun, 2023

具有高鲁棒性的节奏可控长句语音合成的注意力机制

Rhythm-controllable Attention with High Robustness for Long Sentence Speech Synthesis

Dengfeng Ke, Yayue Deng, Yukang Jia, Jinlong Xue, Qi Luo...

TL;DR本研究基于 Tracotron2，提出了一种可控制韵律的注意力算法，将可训练标量引入到注意力机制中，以提高语音的鲁棒性和自然度。

Abstract

regressive text-to-speech (TTS) system utilizes attention mechanism to generate alignment between text and acoustic feature sequence. Alignment determines synthesis →

regressive text-to-speech attention mechanism rhythm-controllable attention tracotron2 robustness

发现论文，激发创造

非注意力 Tacotron: 包括无监督持续时间建模的强大和可控制的神经 TTS 合成

本文介绍了一种基于 Tacotron 2 的非注意力 Tacotron 模型，用显式的持续时间预测器替代了注意力机制，从而显著提高了稳健性检测度量，并通过使用预先训练的语音识别模型引入两个指标进行大规模稳健性评估。

Oct, 2020

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

基于学习单调对齐来提高 LLM 语音合成的鲁棒性

基于大型语言模型（LLM）的文本到语音（TTS）系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力，但是基于 LLM 的 TTS 模型并不稳健，因为生成的输出可能包含重复的词、缺失的词和错位的语音（即幻觉或注意力错误），特别是当文本中包含多次出现相同令牌的情况。我们在一个编码器 - 解码器 Transformer 模型中研究了这些挑战，并发现这种模型中的某些交叉注意力头在针对给定文本预测语音令牌时隐式地学习了文本和语音的对齐。为了使对齐更加稳健，我们提出了利用 CTC 损失和关注先验的技术，以鼓励对文本标记的单调交叉注意力。我们的引导注意力训练技术不引入任何新的可学习参数，并显著改善了基于 LLM 的 TTS 模型的稳健性。

Jun, 2024

基于定位关系的注意力机制，用于强健的长篇语音合成

本研究提出一种简单的位置相对注意力机制，可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题，并比较了 GMM-based 和加性能量 based 等两种注意力机制，最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。

Oct, 2019

基于逐步单调注意力的神经 TTS 鲁棒序列到序列声学建模

提出了一种基于步骤单调注意力方法，将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中，以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。

Jun, 2019

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018