语音识别模型的终身训练的连续编辑

Jun, 2024

语音识别模型的终身训练的连续编辑

Sequential Editing for Lifelong Training of Speech Recognition Models

Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Nikolaos Pappas, Srikanth Ronanki

TL;DR通过提出一种名为连续模型编辑的新方法，本研究解决了自动语音识别系统中的领域迁移问题，并实验证明相对于基准微调和其他深度学习算法，该方法在减少词错误率和提高识别效率方面取得了显著的优势。

Abstract

automatic speech recognition (ASR) traditionally assumes known domains, but adding data from a new domain raises concerns about computational inefficiencies linked to retraining models on both existing and new domains. Fine-tuning solely on new domain risks →

automatic speech recognition catastrophic forgetting lifelong learning sequential model editing word error rate reduction

发现论文，激发创造

回溯重现：面向德语语音识别的层特定细调连续学习

本文探讨了使用自适应域转移技术将大规模自然语言模型应用于新领域的适应性，并使用经验回放来提高语音识别系统的鲁棒性。实验结果表明，即使只添加少量的数据集，系统的识别错误率可以降至 5％以下。

Jul, 2023

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

自动语音识别中的持续学习新词

基于自我监督的持续学习方法，在自动语音识别系统中识别新词时表现出增长性能，通过使用来自之前工作中的增强型记忆自动语音识别模型，通过偏置模型向滑动中的新词进行解码，并对检测到的新词使用推理，将包含这些新词的话语收集到自适应数据集中，对该集进行持续学习，通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能（超过 80% 的召回率），同时保持模型的一般性能。

Jan, 2024

不同领域专家合作，培养全才

本文提出一种基于多领域音频模型的教师 - 学生训练框架，成功地构建了一个应用于多个领域的音频模型，通过对两种不同域名的语音风格实验验证效果，取得了比基线模型（多条件模型）更好的结果，相对字符错误率提高达到了 10.4%。

Jul, 2019

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

使用序列 - 序列模型缓解语音识别错误对聊天机器人的影响

采用序列到序列模型解决语音识别误差对于开放域端到端对话生成的影响。将任务看做一个域适应问题，使用两个不同域的 ASR 转录和原始文本，并提出了两个独立编码器的模型，使其隐藏状态相似，并确保解码器预测相同的对话文本。实验结果表明该方法可以消除语音识别错误并帮助口语对话系统生成更相似于原始文本答案的响应。

Sep, 2017

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

语音识别中零 - shot 领域调适的大型语言模型启发

本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率（WER），特别是，深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

使用合成数据的端到端自适应语音识别系统的简单基线

本文提出了一种简单的基线技术，使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据，并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调，结果表明，单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.

Jun, 2022

借助联邦学习从用户校正中改进语音识别模型质量的反馈之礼

使用联邦学习的方法，从设备端用户的纠正中持续学习以解决自动语音识别模型在识别新时代术语方面的过时和陈旧问题。实验评估表明，该方法能够提高模型对新时代术语的识别能力，并保持整体语言分布的质量。

Sep, 2023