自动语音识别中的持续学习新词

Jan, 2024

Continuously Learning New Words in Automatic Speech Recognition

Christian Huber, Alexander Waibel

TL;DR基于自我监督的持续学习方法，在自动语音识别系统中识别新词时表现出增长性能，通过使用来自之前工作中的增强型记忆自动语音识别模型，通过偏置模型向滑动中的新词进行解码，并对检测到的新词使用推理，将包含这些新词的话语收集到自适应数据集中，对该集进行持续学习，通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能（超过 80% 的召回率），同时保持模型的一般性能。

Abstract

Despite recent advances, automatic speech recognition (ASR) systems are still far from perfect. Typical errors include acronyms, named entities and domain-specific special words for which little or no data is available. To address the problem of recognizing these words, we propose an s

automatic speech recognition self-supervised continual learning new words lecture talk low-rank matrix weights

发现论文，激发创造

动态环境下的短期词汇学习

本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆，以显著提高新词的检测率，并在只添加少量单词的情况下仅轻微增加误报率。

Mar, 2022

无监督自动语音识别：综述

这篇论文研究了使用无监督学习的方法，包括语音分割，语音信号到文本的映射和半监督模型来实现自动语音识别，以识别从语音数据中可以学到的极限并理解语音识别的最小要求，目的是为了在开发低资源语言的语音识别系统时优化资源和努力。

Jun, 2021

语音识别模型的终身训练的连续编辑

通过提出一种名为连续模型编辑的新方法，本研究解决了自动语音识别系统中的领域迁移问题，并实验证明相对于基准微调和其他深度学习算法，该方法在减少词错误率和提高识别效率方面取得了显著的优势。

Jun, 2024

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

在线连续学习端到端语音识别模型

本文提出了一个实验设置，以实现对单个任务的自动语音识别进行在线持续学习。通过使用在线梯度附着内存方法对端到端语音识别模型进行增量模型更新，并结合有选择性的采样策略进行在线持续学习，可以保持类似于重新训练模型的准确性，同时需要较低的计算成本。作者也使用了自监督学习功能（SSL）特征进行了验证。

Jul, 2022

回溯重现：面向德语语音识别的层特定细调连续学习

本文探讨了使用自适应域转移技术将大规模自然语言模型应用于新领域的适应性，并使用经验回放来提高语音识别系统的鲁棒性。实验结果表明，即使只添加少量的数据集，系统的识别错误率可以降至 5％以下。

Jul, 2023

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023