自洽的上下文感知转移学习器用于语音识别

Feb, 2024

自洽的上下文感知转移学习器用于语音识别

Self-consistent context aware conformer transducer for speech recognition

Konstantin Kolokolov, Pavel Pekichev, Karthik Raghunathan

TL;DR我们提出了一种基于转录者的新型神经网络架构，通过增加上下文信息流来提高自动语音识别系统的准确性，特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进，并发现两者的组合在不常见词识别准确性上具有累计增益。

Abstract

We propose a novel neural network architecture based on conformer transducer that adds contextual information flow to the asr systems. Our

neural network architecture conformer transducer asr systems uncommon words context language model

发现论文，激发创造

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

神经传输器中的鲁棒声学语义上下文偏置在语音识别中的应用

研究提出一种轻量级字符表示的方法来编码精细的发音特征，以提高基于声学相似性的情境偏倚，在与音频和情境实体相关的语义上执行情境偏倚，并集成预训练的神经语言模型（NLM）。在 Librispeech 数据集上进行的实验表明，在不同的情境偏见列表大小上，采用提出的声学偏倚和语义偏倚方法，相对于基线情境模型，Conformer Transducer 模型相对 WER 提高了 4.62％-9.26％。在大规模的内部数据集上，相对于基准模型，相对 WER 的提高为 7.91％。在 Librispeech 稀有单词和内部测试集上，尾部话语的表现甚至更加显著，分别实现了 36.80％和 23.40％的相对 WER 改善。

May, 2023

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

神经转换器中的个性化语音识别上下文适配器

本文提出了通过训练神经上下文适配器来实现个性化的自动语音识别（ASR）模型，并表明，相对于浅层融合方法，这种方法不依赖于外部语言模型且性能更好。

May, 2022

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

CB-Conformer：面向有偏差词识别的上下文偏置 Conformer

本文提出了 CB-Conformer 方法，将 Contextual Biasing Module 和自适应语言模型引入到 vanilla Conformer 中，用于改进偏见词识别。同时，作者还构建并公开了一个基于 WenetSpeech 的普通话偏见词数据集。实验证明，相比于基准 Conformer，我们的方法使字符错误率减少了 15.34％，偏见词召回率增加了 14.13％，偏见词 F1 分数提高了 6.80％。

Apr, 2023

增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络，用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能，因为它允许系统循环地存储和检索更多信息。实验结果表明，我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。

Sep, 2023

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023