基于注意力机制的语音识别模型

Jun, 2015

Attention-Based Models for Speech Recognition

Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, Yoshua Bengio

TL;DR本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Abstract

Recurrent sequence generators conditioned on input data through an attention mechanism have recently shown very good performance on a range of tasks in- cluding machine translation, handwriting synthesis and image caption gen- eration. We extend the attention-mechanism with features needed for speech recognition. We show that while an adaptation of the model

attention mechanism speech recognition location-awareness long inputs phoneme error rate

发现论文，激发创造

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

基于循环注意力模型的神经机器翻译

通过使用一个循环网络来明确地建模词语先前和随后的注意力水平之间的关系，我们改进了 Bahdanau 等人（2014）的注意力模型，并且我们的参数化注意力模型的实验表明其可以提高翻译质量。

Jul, 2016

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

多麦克风距离语音识别中的听觉关注循环模型

本文提出了一种神经注意力网络来直接合并多通道音频以生成语音状态，无需任何关于麦克风布置的先前知识或任何用于语音增强的显式信号预处理。

Nov, 2015

基于定位关系的注意力机制，用于强健的长篇语音合成

本研究提出一种简单的位置相对注意力机制，可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题，并比较了 GMM-based 和加性能量 based 等两种注意力机制，最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。

Oct, 2019

基于音节的 Transformer 序列到序列中文语音识别

通过使用基于自注意力机制的 Transformer 模型，比较了基于音节和音素的汉语语音识别模型，结果表明音节模型在 HKUST 语料库上表现优异。

Apr, 2018

一种用于语音指令识别的神经注意力模型

本文介绍了一个使用卷积循环神经网络与注意力机制的语音指令识别模型，其创造了 94.1%（V1）和 94.5%（V2）的分类准确率，是同类模型中的新记录，并且该模型仅有 202K 个可以训练的参数，同时其提出的注意力机制不仅提高了性能，还允许可视化网络处理输入音频时所参考的区域。

Aug, 2018

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

用于稳健和高效数据的端到端语音翻译的关注传递模型

通过多任务训练，提出了一种使用两个注意力机制的端到端可训练模型，用于直接语音翻译。该模型明显优于其他基线模型，并能更有效地利用辅助训练数据，特别适合于多任务训练。

Apr, 2019

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016