基于 Transformer 的自适应稀疏和单调注意力自动语音识别
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023
本文研究自然语言处理中序列到序列任务的单调注意力特性,并介绍了一种与标准注意力机制兼容的单调损失函数,经过实验表明可以在一定程度上实现单调性,但性能的提升并不是非常显著。
Apr, 2021
提出了一种基于步骤单调注意力方法,将严格单调性和强制的注意力硬约束引入到序列到序列的声学建模中,以改善神经 TTS 中的模型鲁棒性并获得显著的性能提升。
Jun, 2019
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法,并在多项实验中的表现均优于传统的在线方法,特别是在使用知识蒸馏技术时。
Jun, 2020
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。
Jun, 2024
本文提出了一种简化的自我注意力(SSAN)层,用于 Transformer 模型的端到端语音识别任务中,以降低模型复杂度和维护良好性能,并在公共 AISHELL-1、内部 1000 小时和 20000 小时大规模普通话任务上评估了 SSAN 基于 Transformer 模型与传统基于自我注意力的模型。结果表明,我们的提出的 SSAN-based transformer 模型在模型参数上可以实现超过 20% 相对减少,在 AISHELL-1 任务上实现了 6.7% 相对语音识别误差率的降低,而且在 20000 小时的大规模任务中,模型失去识别性能。
May, 2020
本文提出了一种名为 Monotonic Multihead Attention(MMA)的新型注意力机制,可应用于同时翻译的机器翻译任务,并介绍了两种特定于多头注意力的新颖且可解释的延迟控制方法,与最先进的 Milk 方法相比,MMA 具有更好的延迟 - 质量平衡,同时分析了延迟控制对关注范围的影响,通过分析解码器层数和头数对质量和延迟的影响来证明模型的引入。
Sep, 2019