基于音节的 Transformer 序列到序列中文语音识别
本论文探讨了在 Mandarin Chinese ASR 任务中使用不同建模单元(包括 CI-phonemes、音节、单词、子词和字符)在基于序列到序列关注机制的 Transformer 模型中的表现比较,结果表明基于字符的模型 CER 最好,其对于没有手动设计的词典和额外语言模型的 HKUST 数据集的最新 CER 为 26.64%,相对于现有最佳 CER 28.0%的 CTC-attention-based encoder-decoder 网络,有 4.8%的相对改进。
May, 2018
本文利用单个 transformer 模型及语言符号,针对低资源语言进行多语言语音识别,相较于 SHL-MLSTM 具有较高的识别精度。
Jun, 2018
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中,实现了在线语音识别,与离线基线相比,具有最低为 0.19%的 CER 衰减和显着的性能提升。
Jan, 2020
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
本文提出一种基于注意力机制的 Transformer 模型,优于使用循环或卷积神经网络的现有机器翻译模型,且可并行训练、训练时间更短,使得 BLEU 评分得以显著提高,并成功将该模型应用于英语句法分析等任务。
Jun, 2017
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
本文提出了一种新颖的多级建模单元方法,通过编码器块将音节作为建模单元,解码器块处理字符级建模单元,实现了汉语语音识别。实验表明,该方法在 AISHELL-1 语料库上取得了很好的结果,在 Conformer 和 Transformer 骨干网上的 CER 分别为 4.1%/4.6%和 4.6%/5.2%。
May, 2022