面向上下文的语音识别变换器转录器

Nov, 2021

面向上下文的语音识别变换器转录器

Context-Aware Transformer Transducer for Speech Recognition

Feng-Ju Chang, Jing Liu, Martin Radfar, Athanasios Mouchtaris, Maurizio Omologo...

TL;DR本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Abstract

End-to-end (E2E) automatic speech recognition (ASR) systems often have difficulty recognizing uncommon words, that appear infrequently in the training data. One promising method, to improve the recognition accuracy on such rare words, is to latch onto personalized/contextual informatio

automatic speech recognition context-aware transformer transducer multi-head attention contextual data bert

发现论文，激发创造

基于转录器的流式语音识别中的自适应上下文偏置

提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法，通过使用有偏的编码器和预测器嵌入来执行流媒体预测，动态地开关偏差列表，以适应个性化和常见情况，实验证明相对于基线，它可以在常见情况下减少 WER 和 CER 达到 6.7％和 20.7％，在个性化情况下对性能影响极小，同时保持快速的推理管道。

Jun, 2023

神经转换器中的个性化语音识别上下文适配器

本文提出了通过训练神经上下文适配器来实现个性化的自动语音识别（ASR）模型，并表明，相对于浅层融合方法，这种方法不依赖于外部语言模型且性能更好。

May, 2022

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

基于后验分布适应的混合 CTC / 注意力系统的端到端上下文 ASR

该研究针对 End-to-end 语音识别模型在识别罕见专有名词上性能较差的问题，提出了一种基于上下文偏置注意力的改进方案。该方案通过在注意力编码器解码器模型中添加上下文偏置注意力模块，使模型有能力识别上下文短语。在 GigaSpeech 数据集上的实验结果表明，该方法相比基线模型，提高了 15％至 28％的偏置短语召回率，并且拥有较强的反偏置能力。

Feb, 2022

带有上下文块处理的 Transformer 语音识别

本文介绍了一种基于块处理的 Transform self-attention 网络用于语音识别的新方法，通过引入上下文 - aware 继承机制和一种新的掩码技术，有效地编码本地和全局信息，实验结果表明，该方法显著优于朴素块处理方法。

Oct, 2019

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

统一流式和非流式传输器中的上下文偏置的两阶段上下文单词过滤

本文提出了一种高效的方法来获取高质量的语境词列表，并将其作为上下文信息融合到非流式编码器和解码器中，以生成最终的识别结果，实验证明与基线系统相比，相对字符错误率降低了 20% 以上。

Jan, 2023

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

通过 CTC-based Word Spotter 实现快速的上下文偏置识别，加速上下文偏置识别的同时提高了 F-score 和 WER，方法已经在 NVIDIA NeMo toolkit 中提供。

Jun, 2024

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023