中间任务训练对于域自适应和跨语言迁移学习的（无）效性

Oct, 2022

中间任务训练对于域自适应和跨语言迁移学习的（无）效性

The (In)Effectiveness of Intermediate Task Training For Domain Adaptation and Cross-Lingual Transfer Learning

Sovesh Mohapatra, Somesh Mohapatra

TL;DR本文分析了使用三种大型语言模型 BERT、RoBERTa 和 XLNet 在文本分类、情感分析、句子相似度三个自然语言处理任务上进行领域内和跨语言适应的迁移学习，并发现大多数任务直接进行微调而不进行中间任务训练可以获得更好的性能，而更广义的任务可能需要先进行中间任务训练。该工作有望成为 NLP 实践者进行迁移学习的指南。

Abstract

transfer learning from large language models (LLMs) has emerged as a powerful technique to enable knowledge-based fine-tuning for a number

transfer learning large language models nlp tasks fine-tuning intermediate task training

发现论文，激发创造

中间任务训练提高零样本跨语言迁移能力

本研究主要研究在非英语任务上英语中间任务训练（Intermediate-task training）是否有助于跨语言理解学习迁移，通过在 XTREME 基准测试上得到大幅度的改进，我们的最佳模型超过了 XLM-R Large，成为 2020 年 6 月的最新技术水平，并对多语言 MLM 和机器翻译的中间任务数据进行了探讨。

May, 2020

选择哪些高效的中间任务进行预训练？

通过 adapter fine-tuning 方法，有效地和高效地获取并选取 NLP 任务中的中间任务，从而在目标任务上实现更好的效果。

Apr, 2021

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

预训练模型的中间任务迁移学习在自然语言理解中的应用：何时和为何有效？

对预训练模型 RoBERTa 进行 110 种中介 - 目标任务组合的大规模研究，发现需要高级推理和推理能力的中介任务最好。目标任务的表现与核心指代消解等高级能力密切相关，需要进一步研究广覆盖的评估基准。有证据表明，预训练过程中所学知识的遗忘可能限制了我们的分析，需要进一步研究这些情况下的迁移学习方法。

May, 2020

探索和预测 NLP 任务的可转移性

本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效，通过在三大问题领域（文本分类、问题回答、序列标注）的 33 个 NLP 任务上的数据验证，结果显示 transfer learning 在数据稀缺情况下更为有效，在源任务数据较少或与目标任务差异较大的情况下仍能提高性能，同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入，并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。

May, 2020

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

使用多任务学习还是中间微调进行预训练编码器转移学习的决策

本文研究比较了三种自然语言处理中的迁移学习方法，即 STILTs、MTL 以及 MTL-ALL 的表现。结果显示，MTL-ALL 的性能不如其他两种方法，而在目标任务比较少的情况下，性能较好的是采用 pairwise MTL 方法。

May, 2022

学习跨多种编程语言的迁移

大型语言模型（LLMs）在提高高资源编程语言的开发者生产力方面表现出色。然而，许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs，本研究通过使用源语言数据来提高目标语言的模型性能，并针对 4 个任务进行了广泛实验，以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。

Oct, 2023