语音识别模型的终身训练的连续编辑
本文探讨了使用自适应域转移技术将大规模自然语言模型应用于新领域的适应性,并使用经验回放来提高语音识别系统的鲁棒性。实验结果表明,即使只添加少量的数据集,系统的识别错误率可以降至 5%以下。
Jul, 2023
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%,且源领域性能无降低。
Sep, 2023
基于自我监督的持续学习方法,在自动语音识别系统中识别新词时表现出增长性能,通过使用来自之前工作中的增强型记忆自动语音识别模型,通过偏置模型向滑动中的新词进行解码,并对检测到的新词使用推理,将包含这些新词的话语收集到自适应数据集中,对该集进行持续学习,通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能(超过 80% 的召回率),同时保持模型的一般性能。
Jan, 2024
本文提出一种基于多领域音频模型的教师 - 学生训练框架,成功地构建了一个应用于多个领域的音频模型,通过对两种不同域名的语音风格实验验证效果,取得了比基线模型(多条件模型)更好的结果,相对字符错误率提高达到了 10.4%。
Jul, 2019
采用序列到序列模型解决语音识别误差对于开放域端到端对话生成的影响。将任务看做一个域适应问题,使用两个不同域的 ASR 转录和原始文本,并提出了两个独立编码器的模型,使其隐藏状态相似,并确保解码器预测相同的对话文本。实验结果表明该方法可以消除语音识别错误并帮助口语对话系统生成更相似于原始文本答案的响应。
Sep, 2017
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文介绍了两种使用 LLaMA 的零样本 ASR 领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域 TedLium-2 和 SPGISpeech 数据集上的词错误率(WER),特别是,深度 LLM-fusion 具有更好的实体召回和词汇外单词的召回优势。
Jun, 2023
本文提出了一种简单的基线技术,使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据,并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调,结果表明,单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.
Jun, 2022
使用联邦学习的方法,从设备端用户的纠正中持续学习以解决自动语音识别模型在识别新时代术语方面的过时和陈旧问题。实验评估表明,该方法能够提高模型对新时代术语的识别能力,并保持整体语言分布的质量。
Sep, 2023