选择哪些高效的中间任务进行预训练?
本文分析了使用三种大型语言模型 BERT、RoBERTa 和 XLNet 在文本分类、情感分析、句子相似度三个自然语言处理任务上进行领域内和跨语言适应的迁移学习,并发现大多数任务直接进行微调而不进行中间任务训练可以获得更好的性能,而更广义的任务可能需要先进行中间任务训练。该工作有望成为 NLP 实践者进行迁移学习的指南。
Oct, 2022
对预训练模型 RoBERTa 进行 110 种中介 - 目标任务组合的大规模研究,发现需要高级推理和推理能力的中介任务最好。目标任务的表现与核心指代消解等高级能力密切相关,需要进一步研究广覆盖的评估基准。有证据表明,预训练过程中所学知识的遗忘可能限制了我们的分析,需要进一步研究这些情况下的迁移学习方法。
May, 2020
本研究主要研究在非英语任务上英语中间任务训练(Intermediate-task training)是否有助于跨语言理解学习迁移,通过在 XTREME 基准测试上得到大幅度的改进,我们的最佳模型超过了 XLM-R Large,成为 2020 年 6 月的最新技术水平,并对多语言 MLM 和机器翻译的中间任务数据进行了探讨。
May, 2020
本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效,通过在三大问题领域(文本分类、问题回答、序列标注)的 33 个 NLP 任务上的数据验证,结果显示 transfer learning 在数据稀缺情况下更为有效,在源任务数据较少或与目标任务差异较大的情况下仍能提高性能,同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入,并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。
May, 2020
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法,通过中间微调预训练的多语言模型,使其适用于不同但相关的数据和 / 或任务,以提高对话系统的性能。
Sep, 2021
本文研究比较了三种自然语言处理中的迁移学习方法,即 STILTs、MTL 以及 MTL-ALL 的表现。结果显示,MTL-ALL 的性能不如其他两种方法,而在目标任务比较少的情况下,性能较好的是采用 pairwise MTL 方法。
May, 2022
该文章研究了在 TAPT 过程中只训练 BERT 模型的嵌入层对模型性能的影响,并提出了一种简单的方法来使 BERT 模型在中间步骤更加高效,该方法是培训 BERT 模型的嵌入层,可以适应目标领域的词汇并达到可比较的性能。
Sep, 2022
本文探讨使用统计量来衡量不同任务间的相似性,从而减少 fine-tuning 的测试所需的任务对数量,并在 58 个任务和 6600 多个任务对组合上实验证明其可以提高任务的效率并显著降低运行时间。
Feb, 2023