回溯重现:面向德语语音识别的层特定细调连续学习
通过提出一种名为连续模型编辑的新方法,本研究解决了自动语音识别系统中的领域迁移问题,并实验证明相对于基准微调和其他深度学习算法,该方法在减少词错误率和提高识别效率方面取得了显著的优势。
Jun, 2024
通过模型自适应的迁移学习方法,将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中,实现了在受限 GPU 内存、吞吐量和训练数据的情况下,基于消费级硬件实现更快的训练,同时减少了训练数据量,从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。
Jun, 2017
本研究探讨了在越南语和德语的医疗领域低资源对话电话语音语料库中使用无监督方法进行预训练,并讨论了如何适应实际的电话任务,包括带宽传输和不同的数据条件,该方法超过了基线 22% 的相对性能。
Oct, 2022
基于自我监督的持续学习方法,在自动语音识别系统中识别新词时表现出增长性能,通过使用来自之前工作中的增强型记忆自动语音识别模型,通过偏置模型向滑动中的新词进行解码,并对检测到的新词使用推理,将包含这些新词的话语收集到自适应数据集中,对该集进行持续学习,通过调整加到每个模型的权重矩阵上的低秩矩阵权重。该方法在新词经常出现时获得递增性能(超过 80% 的召回率),同时保持模型的一般性能。
Jan, 2024
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%,且源领域性能无降低。
Sep, 2023
使用神经模型重编程的参数高效学习框架,可在跨语音识别中重新利用训练良好的英文自动语音识别模型,实现大规模预训练 ASR 成功,提高了训练效率。
Jan, 2023
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文探索在有限监督数据的情况下,如何使用半监督学习和自学习相结合的自回归编码器 - 解码器模型处理会话性语音领域,结果表明,在在领域内数据较为有限时,通过 XLS-R 模型自伪转录,使用这种自回归模型比微调 XLS-R 模型的效果更好,可以将 WER 降低 8% 的绝对值。
Oct, 2022
本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究,以帮助学术和专业人士了解当前挑战,并识别论文中每个框架的优缺点。
Apr, 2023