分析影响基于自监督预训练表示在语音识别中的有效性因素
本文研究通过使用大量训练数据的自动语音识别任务,对语音翻译进行预训练,以提高低资源环境下的语音翻译性能,其中预训练的声学模型起到了关键的作用,并且可用于不同语言对之间的翻译。经验证本方法效果显著,能够在真实的低资源任务中提高性能。
Sep, 2018
本文探讨了如何提高低资源语言的自动语音翻译质量,研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量,作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率,并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。
Oct, 2019
使用预先训练、自我训练和模型规模扩大的方法,利用大型、多样化的未标记数据集,我们取得了一系列使用巨型自动语音识别(ASR)模型的结果,表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有34k个小时标记数据的ASR任务中,通过微调一个80亿参数的预训练Conformer模型,我们可以实现仅有3%的训练数据即可达到SoTA性能,并且使用完整的训练集可以显著提高SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益,涵盖了许多语音领域的公共基准测试,并跨越了多个数据集大小的数量级,并利用预训练网络的学习表示在非ASR任务中取得了SoTA结果。
Sep, 2021
本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用,发现在一些 ASR benchmark corpora 上,使用预训练模型能够超越当前最先进的识别性能。其中,HuBERT 模型表现尤为突出,实验代码和模型参数已开源。
Oct, 2021
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要好。
May, 2022
本文介绍使用多个基于自监督学习的模型以及它们所提取特征的集成方法,改善语音识别任务的性能,并使用三种自监督模型HuBERT、Wav2vec2.0和WaveLM进行了实验,得到了较好的效果。
Jun, 2022
通过自监督预训练(SSL)持续适应现有的SSL模型至目标领域已被证明对于资源稀缺的自动语音识别(ASR)非常有效。本文提出了一种简单而新颖的方法,称为稳定蒸馏,用于基于SSL的持续预训练,促进目标领域ASR性能的提升,其中有限的有标签和无标签数据。稳定蒸馏将自蒸馏作为持续预训练的正则化方式,减轻持续预训练在源领域与目标领域不同时所面临的过拟合问题。具体而言,首先,在目标领域ASR数据集上对初始SSL预训练模型执行普通的持续预训练,并将其称为教师。接下来,将相同的初始预训练模型作为学生,执行持续预训练,同时强制其隐藏表示与教师的表示接近(通过MSE损失)。然后,使用该学生在目标数据集上进行下游ASR微调。在实践中,当在不同的实验设置中评估时,稳定蒸馏胜过了我们的所有基线方法,WER提高0.8-7个百分点。
Dec, 2023
我们提出了两种简单的方法,使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入ASR架构,从而在训练期间避免使用自监督学习模型,加快了训练速度,并在Librispeech和Tedlium数据集上相较于基准模型实现了显著性能提升。
Apr, 2024
本论文研究通过自监督学习进行预训练的语音编码器在不同领域的下游任务中表现出卓越的性能,包括口语语言理解(SLU)和自动语音识别(ASR)。针对低资源的突尼斯阿拉伯口音情境以及结合了低资源SLU和ASR场景的情况,本研究通过比较不同的自监督学习方法的有效性做出贡献。使用许多经过自监督学习训练的语音编码器在TARIC-SLU数据集上进行实验,其中语音编码器均在单语言或多语言语音数据上进行了预训练。一些语音编码器还通过多模式监督师生范式进行了改进,而无需领域内数据或突尼斯数据。本研究得出了许多重要发现,并在本文中进行了讨论。
Jul, 2024
本研究针对低资源自动语音识别(ASR)技术,关注两种濒危的南岛语言Amis和Seediq,探讨数据增强技术的有效性。通过提出一种多语种语料库的数据选择方案,利用自监督学习在低资源环境下进行预训练,从而显著提高ASR性能,展示了通过跨语言迁移学习进行数据增强的可行性和潜力。
Sep, 2024