语音基础模型的高效领域自适应

Feb, 2023

Efficient Domain Adaptation for Speech Foundation Models

Bo Li, Dongseong Hwang, Zhouyuan Huo, Junwen Bai, Guru Prakash...

TL;DR本论文采用自监督预训练方法 BEST-RQ，并使用 JUST Hydra 进行源域和无监督目标域数据的联合微调，将 FM 编码器适配器和解码器微调到目标域，使用少量带标记的域内数据，实现了在大规模 YouTube 和语音搜索任务中既数据又模型参数的高效性，在仅使用 2160 万个带标签的域内数据和 130.8 M 的微调参数的情况下，与另外 3 亿带标签的域内数据从头训练 731.1M 模型的效果相同。

Abstract

foundation models (FMs), that are trained on broad data at scale and are adaptable to a wide range of downstream tasks, have brought large interest in the research community. Benefiting from the diverse data sources such as different modalities, languages and application domains,

foundation models speech recognition systems self-supervised best-rq finetuning youtube and voice search

发现论文，激发创造

预训练语言模型的高效分层领域自适应

本文提出了一种使用计算有效的适配器方法在多个不同领域适应的方法，其通过冻结预先训练的语言模型并与每个节点相关联的适配器权重组合，实现相关领域之间的参数共享。GPT-2 和 C4 中最多的 100 个网站上的实验结果表明，这种方法可以全面提高领域内性能，并提供了一种推理时间算法来推出新领域的泛化性能，同时只能增加成本。

Dec, 2021

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

质量优于数量：基于基础模型生成的封闭领域抽取式问答的合成数据集

通过针对特定主题和写作风格生成相关数据进行预先训练，我们提出了一种以萃取式问答为目标的领域适应框架，利用 Galactica 生成与特定写作风格和主题相符的合成语料库，并在 COVID-QA 和 RadQA 两个生物医学萃取式问答数据集上取得了最新成果和整体改进。

Oct, 2023

预训练语音模型的高效适配器调优用于自动说话人验证

通过在预先训练的模型中插入轻量级适配器模块，将自监督语音模型适应到说话人验证任务中，我们提出了一个高效的适配器框架。实验结果表明，该框架在更新仅 5% 的参数的情况下，超过了微调和其他参数高效的迁移学习方法，实现了卓越的性能。

Mar, 2024

全自监督 ASR 联邦域适应

该论文介绍了一种用于在设备上进行 ASR 领域自适应的联合学习系统，使用自我标记和数据增强和过滤技术来提高强的 Emformer Transducer 的性能，并减少训练和网络成本。

Mar, 2022

基于适配器的多种口语语言处理任务统一模型

通过适配器微调，我们研究了开展统一模型以有效处理多个口语处理任务的潜力，并在 SUPERB 基准测试中实验证明，适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4％，同时在参数更新方面保持高效。

Jun, 2024

基于文本的 RNN-Transducer 预测网络快速领域自适应

本文研究了如何使用少量文本数据来有效地将 RNN-transducer 模型适应于新的领域，同时保持较好的泛化能力，避免了复杂的解码和外部语言模型需要。同时，本文表明该方法在目标任务的 ASR 评估中可以提供相对增益 10-45% 的性能提升，并分享了 RNN-transducer 预测网络作为语言模型的性能表现等相关见解。

Apr, 2021

基于冻结多模式基础模型的无源域自适应

源无关领域适应 (SFDA) 旨在适应一个源模型到目标领域，只能访问标记有监督源领域的预先训练的模型和无标记目标培训数据。我们首次探索了富含异构知识的现成视觉 - 语言多模态模型 (例如 CLIP) 的潜力，提出了一种新颖的蒸馏多模态基础模型 (DIFO) 方法来解决现有方法中不可避免的错误问题，并通过两个步骤的交替来使其任务特定化，实验结果表明 DIFO 显著优于现有的替代方法。

Nov, 2023

基于转录器的自动语音识别域自适应过程中的损伤控制

本文探讨了如何同时适应新领域和限制模型在原领域的准确性降低的问题，提出了几种技术，如限制培训策略和规范化适配器模块，应用于 Google Speech Commands 和英国爱尔兰英语口音数据集，并在新的目标域上取得了良好的结果并限制了原始领域上的恶化。

Oct, 2022

领域适配器混合模型：从预训练语言模型中解耦和注入领域知识

本文介绍了一种基于预训练语言模型和适应领域的新型领域自适应方法，通过两个阶段的适配器调整策略（在无标签数据上先进行领域适配器调整，然后进行标签数据上的任务适配器调整），可以同时提高在特定领域、跨领域和知识密集型任务中的性能。

Jun, 2023