衡量自监督预训练中个别域因素的影响

Mar, 2022

衡量自监督预训练中个别域因素的影响

Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training

Ramon Sanabria, Wei-Ning Hsu, Alexei Baevski, Michael Auli

TL;DR本文通过对自监督预训练语音中不同领域因素的实验研究，发现语音中的语音学因素在预训练时具有重要作用，而语法和句法因素较不重要，这是首次探究预训练语音中的领域特征。

Abstract

Human speech data comprises a rich set of domain factors such as accent, syntactic and semantic variety, or acoustic environment. Previous work explores the effect of domain mismatch in automatic speech recognition

automatic speech recognition pre-training domain factors phonetics self-supervised

发现论文，激发创造

分析影响基于自监督预训练表示在语音识别中的有效性因素

本文研究了在低资源环境下建立自动语音识别（ASR）系统的方法，发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响，希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。

Mar, 2022

稳健的 wav2vec 2.0：自监督预训练中的领域漂移分析

本文探讨了语音表示的自监督学习，其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形，试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。

Apr, 2021

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

自监督语音表示域适应微调的自动数据增强

本篇论文提出一种用于有声学领域差异的监督领域自适应方法，通过数据增强来减小源域和目标域的差异，并在初步微调阶段使用，证明了该方法的有效性。

Jun, 2023

先自主训练再转录

研究表明，对于训练和测试领域不匹配的情况下，当前的语音识别系统会显示出较大的性能下降。自我训练方法可以帮助解决这个问题，并在域漂移的情况下使模型适应。本文调查了在测试集上进行噪声学生教师训练作为测试时自适应方法的效益，类似于语言模型的动态评估方法，它可以在话语边界之间传递信息并作为一种域适应方法。实验中使用了一系列领域内和领域外数据集，展示了高达 32.2％的相对增益。有趣的是，我们的方法显示出比典型的自我训练设置使用单独的适应数据的更大增益。

Jun, 2024

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

利用自我监督提升跨域语音识别能力

本文提出了一种系统的无监督领域自适应框架，利用自监督方法在预训练和微调范式中充分利用无标签数据，在解决提高自监督方法在异领域性能的同时，通过提出三种创新性的调整方法，有效地提高了自适应领域的性能。

Jun, 2022

自监督语音转文本系统中性别影响的研究

本研究使用法语作为研究语言，通过比较不同性别平衡的预训练数据集在 ASR 和 ST 中的表现来探究其影响。结果表明，性别平衡的预训练模型不一定导致最佳结果，并且使用自监督模型作为特征提取器时，ASR 和 ST 的结果会遵循更复杂的模式。

Apr, 2022

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017