选择哪些高效的中间任务进行预训练？

EMNLPApr, 2021

选择哪些高效的中间任务进行预训练？

What to Pre-Train on? Efficient Intermediate Task Selection

Clifton Poth, Jonas Pfeiffer, Andreas Rücklé, Iryna Gurevych

TL;DR通过 adapter fine-tuning 方法，有效地和高效地获取并选取 NLP 任务中的中间任务，从而在目标任务上实现更好的效果。

Abstract

Intermediate task fine-tuning has been shown to culminate in large transfer gains across many nlp tasks. With an abundance of candidate datasets as well as pre-trained language models, it has become infeasible to

fine-tuning nlp tasks adapter settings transfer learning intermediate training

发现论文，激发创造

中间任务训练对于域自适应和跨语言迁移学习的（无）效性

本文分析了使用三种大型语言模型 BERT、RoBERTa 和 XLNet 在文本分类、情感分析、句子相似度三个自然语言处理任务上进行领域内和跨语言适应的迁移学习，并发现大多数任务直接进行微调而不进行中间任务训练可以获得更好的性能，而更广义的任务可能需要先进行中间任务训练。该工作有望成为 NLP 实践者进行迁移学习的指南。

Oct, 2022

预训练模型的中间任务迁移学习在自然语言理解中的应用：何时和为何有效？

对预训练模型 RoBERTa 进行 110 种中介 - 目标任务组合的大规模研究，发现需要高级推理和推理能力的中介任务最好。目标任务的表现与核心指代消解等高级能力密切相关，需要进一步研究广覆盖的评估基准。有证据表明，预训练过程中所学知识的遗忘可能限制了我们的分析，需要进一步研究这些情况下的迁移学习方法。

May, 2020

中间任务训练提高零样本跨语言迁移能力

本研究主要研究在非英语任务上英语中间任务训练（Intermediate-task training）是否有助于跨语言理解学习迁移，通过在 XTREME 基准测试上得到大幅度的改进，我们的最佳模型超过了 XLM-R Large，成为 2020 年 6 月的最新技术水平，并对多语言 MLM 和机器翻译的中间任务数据进行了探讨。

May, 2020

探索和预测 NLP 任务的可转移性

本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效，通过在三大问题领域（文本分类、问题回答、序列标注）的 33 个 NLP 任务上的数据验证，结果显示 transfer learning 在数据稀缺情况下更为有效，在源任务数据较少或与目标任务差异较大的情况下仍能提高性能，同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入，并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。

May, 2020

高效调节的参数即任务嵌入

本文提出了一种利用参数有效调参方法中的任务特定参数作为现成任务嵌入用于中间任务转移的方法，实验结果表明这种方法在中间任务转移预测方面始终优于现有的方法。

Oct, 2022

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

使用多任务学习还是中间微调进行预训练编码器转移学习的决策

本文研究比较了三种自然语言处理中的迁移学习方法，即 STILTs、MTL 以及 MTL-ALL 的表现。结果显示，MTL-ALL 的性能不如其他两种方法，而在目标任务比较少的情况下，性能较好的是采用 pairwise MTL 方法。

May, 2022

文本分类任务自适应预训练的简单高效方法

该文章研究了在 TAPT 过程中只训练 BERT 模型的嵌入层对模型性能的影响，并提出了一种简单的方法来使 BERT 模型在中间步骤更加高效，该方法是培训 BERT 模型的嵌入层，可以适应目标领域的词汇并达到可比较的性能。

Sep, 2022

基于差异的领域可迁移性用于零样本分类

本文探讨使用统计量来衡量不同任务间的相似性，从而减少 fine-tuning 的测试所需的任务对数量，并在 58 个任务和 6600 多个任务对组合上实验证明其可以提高任务的效率并显著降低运行时间。

Feb, 2023