基于后验分布适应的混合 CTC / 注意力系统的端到端上下文 ASR

Feb, 2022

基于后验分布适应的混合 CTC / 注意力系统的端到端上下文 ASR

End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system

Zhengyi Zhang, Pan Zhou

TL;DR该研究针对 End-to-end 语音识别模型在识别罕见专有名词上性能较差的问题，提出了一种基于上下文偏置注意力的改进方案。该方案通过在注意力编码器解码器模型中添加上下文偏置注意力模块，使模型有能力识别上下文短语。在 GigaSpeech 数据集上的实验结果表明，该方法相比基线模型，提高了 15％至 28％的偏置短语召回率，并且拥有较强的反偏置能力。

Abstract

End-to-end (E2E) speech recognition architectures assemble all components of traditional speech recognition system into a single model. Although it simplifies ASR system, it introduces contextual ASR drawback: the E2E model has worse performance on utterances containing infrequent proper nouns. In this work, we propose to add a →

end-to-end speech recognition contextual bias attention encoder-decoder model gigaspeech anti-bias ability

发现论文，激发创造

基于注意力偏置短语增强的情境化自动语音识别

该论文提出了一种基于注意力的上下文偏置方法，利用可编辑的短语列表（称为偏置列表）来实现用户或开发人员的定制化，该方法通过组合偏置短语索引损失和特殊标记来有效地训练，以检测输入语音数据中的偏置短语。此外，为了进一步提高推理过程中的上下文化性能，我们提出了一种基于偏置短语索引概率的偏置短语增强（BPB）束搜索算法。实验结果表明，所提出的方法在 Librispeech-960（英文）和我们的内部（日文）数据集上一致改善了目标短语偏置列表的词错误率和字符错误率。

Jan, 2024

语言模型偏置的序列到序列 ASR 系统上下文密度比率

本文提出了一种上下文密度比方法，用于训练上下文感知的 E2E 模型和适应命名实体的语言模型，应用于医生和患者对话的 E2E ASR 系统中，相对基线提高了 46.5% 的命名实体识别率，超过了上下文浅融合基线 22.1% 的相对识别率，并且没有降低整个测试集的识别准确度。

Jun, 2022

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

开放领域自适应循环神经网络转录技术

这篇论文提出对 RNN-T 模型进行修改，以利用附带的元数据文本，从而改善对于命名实体词汇的识别，并在社交媒体视频数据集上取得了 16% 左右的提升。

Jun, 2020

深度上下文：端到端的上下文语音识别

本文提出了一种新颖的自动语音识别 (CLAS) 系统，它对上下文短语进行深层次融合，对 ASR 进行了联合优化，并且在测试阶段可以识别未知词汇，相对于传统的浅层融合方法，提高了 68% 的相对识别率。

Aug, 2018

一种有效的端到端建模方法用于发音错误检测

本研究采用 E2E 模型中的混合 CTC-Attention 方法，并针对中文发音检测任务进行了输入扩充，使结果更加适合该任务。实验结果表明，与传统的混合 DNN-HMM 系统相比，该方法能够大大简化处理流程并显著提高性能。

May, 2020

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

基于类语言模型和令牌传递解码器的端到端语境语音识别

本文针对上下文语音识别难以适应 E2E 自动语音识别的问题，提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明，该方法在不改变解码超参数的情况下，有效降低了上下文语音识别的字词错误率，并不影响普通语音识别的表现。

Dec, 2018

具有上下文短语预测网络的情境化端到端语音识别

本研究介绍了一种基于注意力机制的深度偏置方法中的语境短语预测网络，该网络使用上下文嵌入预测话语中的语境短语并计算偏置损失，以辅助训练文本化模型，改善了各种端到端语音识别模型的单词错误率（WER）。

May, 2023

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023