改进不可适应的 ASR 系统
本文提出了一种简单的技术,通过机器翻译实现 ASR 误差校正的领域自适应,我们使用了 Google ASR 和 ASPIRE 模型进行了实验,结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%,其 BLEU 分数绝对值提高了 4 点;同时,通过流下游任务 Speaker Diarization,我们还评估了 ASR 误差校正,并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。
Mar, 2020
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%,且源领域性能无降低。
Sep, 2023
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文介绍了一个新的数据集 Libri-Adapt,它是 LibriSpeech 语料库的扩展,包含来自 72 个不同领域的英语语音,可以支持语音识别模型的无监督领域自适应研究,并提供基线结果来量化这些领域转移对 Mozilla DeepSpeech2 ASR 模型的影响。
Sep, 2020
本文提出了一种简单的基线技术,使用单个扬声器的 TTS 引擎将纯文本语料库转换为音频数据,并使用目标域中的并行数据对通用 ASR 模型的最终密集层进行微调,结果表明,单个发声者 TTS 数据与仅微调最终密集层的结合可合理提高单词错误率.
Jun, 2022
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
本文详细分析了 Whisper 输出,并提出了精细调整和软提示调整两种解决方案,实验证明我们可以有效地改变 Whisper 的解码行为,生成与口语回答中准确的单词。
Jul, 2023
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文提出了一种无监督自适应错误校正方法,可以在未见过的领域中恢复由领域差异引起的语音识别错误,使用伪标记技术生成学习样本,在持续学习中以减少过度拟合,并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性,实验结果表明,该方法相对于未自适应的 ASR 系统显著降低了单词错误率,并可用于其他适应方法以带来额外的 10% 的性能提升。
Sep, 2022