自我偏置的自监督学习用于 ASR
本文通过进一步研究 Masked Predictive Coding 的三个重要方面:预训练数据的发言风格,对流式模型的扩展和如何更好地将预训练阶段的知识转移,实验证明,在下游识别任务中,预训练数据与匹配的发言风格更有用,使用 APC 和 MPC 的统一培训目标在 HKUST 上训练的流式模型上提供了 8.46%的相对错误率降低,目标数据适应和逐层判别式培训的组合有助于 MPC 的知识转移,在 AISHELL 上相对基线实现了 3.99%的错误率降低。
May, 2020
本论文提出了两种监督引导的码本生成方法,分别是使用混合 ASR 系统解码并生成音素级别对齐(命名为 PBERT)或者使用从端到端 CTC 模型中提取的受监督语音特征进行聚类(命名为 CTC 聚类),以提高自动语音识别性能和预训练效率。实验结果表明,我们的方法在各种 SSL 和自训练基线中具有显著的优越性,最高 WER 相对降低了 17.0%。我们的预训练模型在非 ASR 语音任务中也表现出良好的可迁移性。
Jun, 2022
本文提出了一种三阶段的预训练模型,通过加入任务引导的预训练阶段和选择性掩蔽来学习特定领域和任务模式,实验结果表明,该模型在情感分析任务中可以达到与更少计算成本相当甚至更好的性能。
Apr, 2020
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
该研究提出了一种使用任务特定掩码的方法,通过修改预训练的 BERT 模型来适应下游任务。研究结果表明,这种选择性掩码策略优于随机掩码,具有较好的效果。
Nov, 2022
这篇论文介绍了一种利用自监督学习方法,通过单阶段训练自动语音识别模型,利用标记数据和非标记数据来训练模型,实现了对下游任务性能的直接优化,并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率,最后提出解决对比任务是计算 CTC 损失的正则化的假设。
Oct, 2020
本文研究了带有累积评分函数的遮蔽预训练模型,证明该方法优化模型边际似然,从而取得了预训练的成功效果,并且推荐用类似方法来训练贝叶斯模型,同时还探讨了在大型语言模型中使用遮蔽预训练的主要学习原则。
Jun, 2023
本论文针对时间序列遮蔽重构和预测之间的差距,提出了一种任务目标统一和适应任务难度的方法并且通过引入 PT-Tuning 范式进一步减小了差距,实验证明该方法在实际数据集上具有卓越的性能。
Nov, 2023
本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021