有预训练还是有标注数据？在有限预算条件下进行领域自适应

EMNLPSep, 2021

有预训练还是有标注数据？在有限预算条件下进行领域自适应

Pre-train or Annotate? Domain Adaptation with a Constrained Budget

Fan Bai, Alan Ritter, Wei Xu

TL;DR本文主要研究了如何在有限预算的情况下，通过选取最佳的数据标注和预训练策略，优化 NLP 领域的域适应问题，研究表明，小预算情况下，全部资金用于数据标注可以获得最好的性能表现，但预算足够大时，则在数据标注和领域内预训练之间进行平衡会更好。

Abstract

Recent work has demonstrated that pre-training in-domain language models can boost performance when adapting to a new domain. However, the costs associated with →

domain adaptation language models data annotation pre-training nlp

发现论文，激发创造

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

低标注预算约束下领域特定问答精调策略

在本研究中，我们通过对不同 QA 数据集上的顺序微调策略的性能进行全面分析，证明了传统的基于预训练语言模型和微调策略在低预算设置下是次优的。我们的实验结果表明，在低预算设置下，最佳策略是使用预训练语言模型，并将其与目标数据集和 SQuAD 数据集进行微调。在不额外标注的情况下，该策略的性能优于标准策略 2.28% 至 6.48%。这些实验结果对于 QA 从业者在低预算下如何最好地微调 QA 系统具有极大的实用价值。

Jan, 2024

基于有限领域数据的廉价推理专用语言模型

大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Feb, 2024

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

神经语言模型的域自适应权衡

探讨了语言模型适应与机器学习理论的关系，研究了大型领域外训练集和小型领域内训练集之间的训练方法的优劣，提出了领域外预训练加上领域内微调比单独应用更为通用，并提出了基于数据选择的适应技术的公共框架。

Sep, 2021

预训练语言模型中的无监督域聚类

本文提出了一种基于大规模预训练语言模型的领域数据选择方法，通过度量句子的隐式相似性进行聚类，仅需要少量数据即可有效提高神经机器翻译的准确性。

Apr, 2020

为神经排序模型微调标注数据？当前主动学习策略不如随机选择

本文研究了在有限的训练数据和预算下微调基于预训练语言模型的排序器，发现随机选择不同子集的训练数据进行微调时产生的有效性存在巨大的变化，并探究了主动学习策略在降低标注成本方面的有效性

Sep, 2023

多语种模型有效获取注释

本研究通过采用单一模型在多语种数据上进行联合学习的策略，比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法，性能显著提高。同时，主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中，该方法表现出了显著优越性，在有限的预算下构建多语种模型的可行性得到了很大提高。

Apr, 2022

在保留通用知识的同时调整语言模型

本文提出了一种新的领域适应预训练方法，通过软遮罩注意力头并对一般和完全表示进行对比学习，以更智能的方式对 LM 中的知识进行适应，实验结果表明了该方法的有效性。

Jan, 2023

低资源神经机器翻译的高性价比训练

提出了一种利用自监督学习和小规模词典来初始化神经机器翻译（NMT）模型，在初始化后使用主动学习策略提高低资源条件下（如稀缺语言）翻译模型性能的方法，并提出了一种基于领域适应的新型主动学习策略。除此之外，我们还表明，使用这种初始化方法和主动学习策略可相比于传统方法提高最多 13 个 BLEU 点。

Jan, 2022