带有上下文块处理的 Transformer 语音识别
本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合 MoChA 算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。
Oct, 2019
本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法,并在多项实验中的表现均优于传统的在线方法,特别是在使用知识蒸馏技术时。
Jun, 2020
本文提出了一种基于 Transformer 的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
本文介绍了一种基于上下文的自动语音识别系统:context-aware transformer transducer (CATT) 网络,通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法,取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。
Nov, 2021
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
通过对 Transformer 模型内部结构的分析,探讨了每个组件对文本语境化的作用,实验发现每个组件都对不同程度的语境化产生了影响,并且有些组件的作用相互抵消,更新了我们关于 Transformer 层各个组件作用的常见认识。
Feb, 2023
本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入,并阐述其在提供长程关系方面的优势和优化特点,最终实现了在无额外语言模型文本下,librispeech 测试中 4.7%和 12.9%的字错率。
Apr, 2019
本研究研究了 Transformers 中自注意力机制在音频识别中的应用,发现在训练较高的编码层时,全局视图不是必须的。
Nov, 2020
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019