有预训练还是有标注数据?在有限预算条件下进行领域自适应
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
在本研究中,我们通过对不同 QA 数据集上的顺序微调策略的性能进行全面分析,证明了传统的基于预训练语言模型和微调策略在低预算设置下是次优的。我们的实验结果表明,在低预算设置下,最佳策略是使用预训练语言模型,并将其与目标数据集和 SQuAD 数据集进行微调。在不额外标注的情况下,该策略的性能优于标准策略 2.28% 至 6.48%。这些实验结果对于 QA 从业者在低预算下如何最好地微调 QA 系统具有极大的实用价值。
Jan, 2024
大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性,但具有挑战性。本研究规范了这些约束,并区分了四个重要变量:预训练预算(用于在目标领域之前进行训练)、专业预算(用于在目标领域之后进行训练)、推理预算和领域内训练集的大小。在这些设置中,我们比较了机器学习文献中的不同方法。受到推理成本的限制,我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是,我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度,而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。
Feb, 2024
本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
探讨了语言模型适应与机器学习理论的关系,研究了大型领域外训练集和小型领域内训练集之间的训练方法的优劣,提出了领域外预训练加上领域内微调比单独应用更为通用,并提出了基于数据选择的适应技术的公共框架。
Sep, 2021
本文研究了在有限的训练数据和预算下微调基于预训练语言模型的排序器,发现随机选择不同子集的训练数据进行微调时产生的有效性存在巨大的变化,并探究了主动学习策略在降低标注成本方面的有效性
Sep, 2023
本研究通过采用单一模型在多语种数据上进行联合学习的策略,比起传统的在每种语言上单独训练模型和通过高资源语言进行零样本迁移的方法,性能显著提高。同时,主动学习可以进一步提高数据利用率。在 4 种和 5 种语言的分类、序列标注和句法分析任务中,该方法表现出了显著优越性,在有限的预算下构建多语种模型的可行性得到了很大提高。
Apr, 2022
本文提出了一种新的领域适应预训练方法,通过软遮罩注意力头并对一般和完全表示进行对比学习,以更智能的方式对 LM 中的知识进行适应,实验结果表明了该方法的有效性。
Jan, 2023
提出了一种利用自监督学习和小规模词典来初始化神经机器翻译(NMT)模型,在初始化后使用主动学习策略提高低资源条件下(如稀缺语言)翻译模型性能的方法,并提出了一种基于领域适应的新型主动学习策略。除此之外,我们还表明,使用这种初始化方法和主动学习策略可相比于传统方法提高最多 13 个 BLEU 点。
Jan, 2022