基于注意力机制的语音识别模型
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系,我们改进了 Bahdanau 等人(2014)的注意力模型,并且我们的参数化注意力模型的实验表明其可以提高翻译质量。
Jul, 2016
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
本研究提出一种简单的位置相对注意力机制,可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题,并比较了 GMM-based 和加性能量 based 等两种注意力机制,最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。
Oct, 2019
通过使用基于自注意力机制的 Transformer 模型,比较了基于音节和音素的汉语语音识别模型,结果表明音节模型在 HKUST 语料库上表现优异。
Apr, 2018
本文介绍了一个使用卷积循环神经网络与注意力机制的语音指令识别模型,其创造了 94.1%(V1)和 94.5%(V2)的分类准确率,是同类模型中的新记录,并且该模型仅有 202K 个可以训练的参数,同时其提出的注意力机制不仅提高了性能,还允许可视化网络处理输入音频时所参考的区域。
Aug, 2018
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017
通过多任务训练,提出了一种使用两个注意力机制的端到端可训练模型,用于直接语音翻译。该模型明显优于其他基线模型,并能更有效地利用辅助训练数据,特别适合于多任务训练。
Apr, 2019
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016