基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

Oct, 2022

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

Towards Personalization of CTC Speech Recognition Models with Contextual Adapters and Adaptive Boosting

Saket Dingliwal, Monica Sunkara, Sravan Bodapati, Srikanth Ronanki, Jeff Farris...

TL;DR该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Abstract

End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models a

speech recognition ctc-attention encoder rare words f1 score

发现论文，激发创造

多语言上下文适配器：提高低资源语言中自定义单词识别的效果

本文提出了一种监督损失的方法来平滑 Contextual Adapters 的训练，进一步探讨了多语言策略以提高有限的训练数据的性能，结果在一个低资源语言中检索未见过的自定义实体方面取得了 48％ F1 的提升。

Jul, 2023

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

推进声学到单词 CTC 模型

本论文研究了基于 CTC 准则的声音到单词模型的问题，并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案，最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。

Mar, 2018

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

基于 CTC 的 ASR 的上下文感知知识迁移策略

该研究利用一种上下文感知的知识传递策略为基于 CTC 的自动语音识别模型注入语言学信息，提高了其性能表现，通过实验证明了该方法在 AISHELL-1 和 AISHELL-2 数据集上的有效性。

Oct, 2022

自注意力网络在语音识别中的连接主义时间分类

本文提出了 SAN-CTC，是一种基于自注意力机制和 CTC 的深度神经网络，用于实现端到端的语音识别，经过评估，相比于现有的 CTC 模型和编码器 - 解码器模型，具有更好的性能。

Jan, 2019

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

基于 CTC 的声学模型的多语言训练和跨语言适应

研究了多种适应和规则化技术，并使用深度神经网络，调查了自适应性训练的潜力，并研究了退火珂朵莉的效果，得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能，并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。

Nov, 2017

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

通过 CTC-based Word Spotter 实现快速的上下文偏置识别，加速上下文偏置识别的同时提高了 F-score 和 WER，方法已经在 NVIDIA NeMo toolkit 中提供。

Jun, 2024