使用Transformer模型进行流式自动语音识别

Jan, 2020

使用Transformer模型进行流式自动语音识别

Streaming automatic speech recognition with the transformer model

Niko Moritz, Takaaki Hori, Jonathan Le Roux

TL;DR通过使用自我注意力来模拟时间上下文信息，基于编码器-解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于Transformer的流式ASR系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的ASR场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器-解码器的关注机制。在LibriSpeech的测试数据上，我们的方案分别达到了2.8%和7.2%的词错误率，这是我们所知道的这个任务的最好的流式端到端ASR成果。

Abstract

Encoder-decoder based sequence-to-sequence models have demonstrated state-of-the-art results in end-to-end automatic speech recognition (ASR). Recently, the →

发现论文，激发创造

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从9.2%显著降至5.6%。在听写任务中，该模型的错误率为4.1%，略优于传统系统的5.0%。

Dec, 2017

基于Transformer序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于Transformer的编码器-解码器架构，将ASR模型输出“翻译”成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在LibriSpeech基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的dev-other和test-other部分的评估数据集上。我们的模型还通过6-gram语言模型重新评分超过了基础模型，并接近于使用Transformer-XL神经语言模型重新评分的性能。

Oct, 2019

基于Transformer的在线端到端自动语音识别

本文提出了一种基于Transformer的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合MoChA算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在WSJ和AISHELL-1数据集上表现更加优异。

Oct, 2019

Transformer Transducer：基于Transformer编码器和RNN-T Loss的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用Transformer编码器可用于流媒体语音识别系统；该模型在LibriSpeech数据集上进行了实验结果，结果表明限制Transformer层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在LibriSpeech基准测试上的准确性优于现有技术水平。

Feb, 2020

基于自注意力和增强记忆的流式Transformer声学模型

本文提出了一种新颖的增强记忆自注意力机制，用于Transformer语音识别中的流式应用，相对于现有的可流式Transformer方法，减小了计算量并在Librispeech基准测试中实现了超过15%的相对误差降低。

May, 2020

双模ASR: 统一与改进全上下文流式ASR模型

该研究提出了一种统一框架的双模ASR（自动语音识别），通过权重共享和全场景ASR的联合训练，特别是在训练期间进行知识蒸馏，使流式ASR的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器ASR网络，并在LibriSpeech和MultiDomain数据集上进行了广泛实验和削减研究，取得了新的流式ASR结果。

Oct, 2020

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在Flipkart语音搜索任务的应用，使用编码器-解码器LAS架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次LAS二次得分中相对WER以5ms以内的延迟开销提高16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其1-best结果与可比较的RNN-T系统相当，而更丰富的假设集允许进行第二遍重评分，以在LibriSpeech任务上实现10-20％更低的字词误差率，同时在远场语音助手任务中优于强RNN-T基线。

Jun, 2023

流式端到端语音识别的解码器架构

使用解码器专用架构进行分块流式自动语音识别，通过压缩CTC输出和上下文嵌入的语音特征，并将其作为提示逐块顺序提供给解码器，以快速估计输出令牌，同时采用随机长度前缀提示的新型训练方案，使模型能够应对分块处理引起的截断提示，并且在LibriSpeech test-other数据集上相对词错误率减少了8%，速度是基线模型的两倍。

Jun, 2024

通过知识蒸馏与Whisper快速流式变换器自动语音识别原型开发

本研究解决了在缺乏监督数据条件下训练自动语音识别（ASR）模型的难题。我们提出了一种新方法，利用伪标记语音有效地从头开始训练流式变换器-转导器（TT）模型，结果表明这种方法能够在各种语言上获得强大的ASR性能，且不需要大量的数据和计算资源。

Sep, 2024