一种简化了的全量化Transformer用于端到端语音识别
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于Transformer的编码器-解码器架构,将ASR模型输出“翻译”成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在LibriSpeech基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的dev-other和test-other部分的评估数据集上。我们的模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。
Oct, 2019
本文提出了一种基于Transformer的块处理方法来解决整个输入序列必须用于计算自注意力的问题,并结合MoChA算法实现了在线自动语音识别系统,实验结果表明,相较于传统的块处理方法,该方法在WSJ和AISHELL-1数据集上表现更加优异。
Oct, 2019
本研究提出低秩变压器(LRT)神经网络架构,以实现减少网络参数和提高训练推理速度的目标,进而在端对端语音识别任务上实现更好的泛化性能和更低的错误率。
Oct, 2019
本研究提出了两种不自回归变换器结构以解决自动语音识别中的推理计算成本问题,在训练期间,输入的标记被特殊的掩码标记随机替换,网络需要考虑未被掩盖的上下文和语音输入以预测与那些掩码标记相对应的标记。结果表明,该模型能够支持不同的解码策略,特别是在 Aishell 上,该方法的性能超过了 Kaldi ASR 系统,与最先进的自回归变换器的性能相当,而且速度提高了 7 倍。
Nov, 2019
通过使用自我注意力来模拟时间上下文信息,基于编码器-解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于Transformer的流式ASR系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的ASR场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器-解码器的关注机制。在LibriSpeech的测试数据上,我们的方案分别达到了2.8%和7.2%的词错误率,这是我们所知道的这个任务的最好的流式端到端ASR成果。
Jan, 2020
本论文介绍了基于Transformer的在线CTC/Attention E2E ASR架构,该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器,通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线CTC/Attention架构中,实现了在线语音识别,与离线基线相比,具有最低为0.19%的CER衰减和显着的性能提升。
Jan, 2020
本文提出了一种名为Conformer的语音识别(Automatic Speech Recognition)模型,结合了Transformer和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在LibriSpeech benchmark测试中取得了2.1%/4.3%(未使用语言模型)和1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于Transformer和CNN的模型。
May, 2020
本研究设计了Conv-Transformer Transducer架构,在 LibriSpeech 数据集上实现了较强的流式语音识别性能,该架构适用于流式 ASR,且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统,拥有更小的前向窗口、更少的参数和更低的帧率。
Aug, 2020
该论文提出了一种基于Transformer的端到端自动语音识别体系结构,该体系结构通过计算成本分摊实现高效的神经推断,其在推断期间动态创建稀疏计算路径,实现计算资源的选择性使用,并使用可调节的损失函数规范预测性能对计算总体水平进行计算。在LibriSpeech数据上进行实验,最佳模型只增加3%的相对字错误率并降低60%的计算成本。
Jul, 2022
本文提出了一种基于块重复策略和适配器模块的解决方案(BRST和ADM),旨在适应资源限制的小型自动语音识别(ASR)系统,并在公共语料库实验中取得了较好的识别结果。
Mar, 2023