动态环境下的短期词汇学习

Mar, 2022

Short-Term Word-Learning in a Dynamically Changing Environment

Christian Huber, Rishu Kumar, Ondřej Bojar, Alexander Waibel

TL;DR本文研究了如何动态地获取重要的词汇以及将重要的关键词从支持性文档中提取并用于标记单词记忆，以显著提高新词的检测率，并在只添加少量单词的情况下仅轻微增加误报率。

Abstract

Neural sequence-to-sequence automatic speech recognition (ASR) systems are in principle open vocabulary systems, when using appropriate modeling units. In practice, however, they often fail to recognize words not seen during training, e.g., →

speech recognition neural networks named entities word memory keywords extraction

发现论文，激发创造

自动语音识别中的持续学习新词

基于自我监督的持续学习方法，在自动语音识别系统中识别新词时表现出增长性能，通过使用来自之前工作中的增强型记忆自动语音识别模型，通过偏置模型向滑动中的新词进行解码，并对检测到的新词使用推理，将包含这些新词的话语收集到自适应数据集中，对该集进行持续学习，通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能（超过 80% 的召回率），同时保持模型的一般性能。

Jan, 2024

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

使用神经联想记忆进行快速上下文适应，提高设备端个性化语音识别

本文介绍一种基于模型的端到端语境自适应方法，它不依赖于解码器，适合用于设备上的个性化训练，实验结果表明，相比传统的重新评分技术，在连续个性化场景中，该方法可以使相对识别率（WER）提高 12％，实体提及特定 F1 得分提高 15.7％。

Oct, 2021

上下文化动态词汇的自动语音识别

通过使用动态词汇表中的短语级别偏置令牌，提出的方法改善了英语和日语数据集上偏置短语在端到端自动语音识别中的性能。

May, 2024

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023

高精度语音搜索查询纠错通过可检索的语音 - 文本嵌入

通过使用多模式语音文本嵌入网络，从语音文本数据库中直接查询校正候选项，以消除音频 - 假设不匹配问题，并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分，该方法在改善检索率的同时，降低了相对的词错误率（WER）。

Jan, 2024

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

语义网络重新评分提升自动语音识别系统的上下文识别能力

我们提出了一种新方法，在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力，从而准确地递交准确的转录结果，涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模，通过使用基于 Transformer 的模型对单词格进行重新评分，实现了显著的性能提升和词错误率的明显降低，在 LibriSpeech 数据集上进行了实证分析，证明了我们提出的框架的有效性。

Oct, 2023

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022