预训练语言模型的高效分层领域自适应

ACLDec, 2021

预训练语言模型的高效分层领域自适应

Efficient Hierarchical Domain Adaptation for Pretrained Language Models

Alexandra Chronopoulou, Matthew E. Peters, Jesse Dodge

TL;DR本文提出了一种使用计算有效的适配器方法在多个不同领域适应的方法，其通过冻结预先训练的语言模型并与每个节点相关联的适配器权重组合，实现相关领域之间的参数共享。GPT-2 和 C4 中最多的 100 个网站上的实验结果表明，这种方法可以全面提高领域内性能，并提供了一种推理时间算法来推出新领域的泛化性能，同时只能增加成本。

Abstract

The remarkable success of large language models has been driven by dense models trained on massive unlabeled, unstructured corpora. These corpora typically contain text from diverse, heterogeneous sources, but information about the source of the text is rarely used during training. Tra

large language models domain adaptation adapter approach hierarchical tree structure gpt-2

发现论文，激发创造

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型，同时比 BERT BASE 小 3.3 倍，快 5.1 倍。

Jun, 2021

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在 CLCD 设置中取得了显著的性能提升。

Nov, 2020

AdapterSoup: 利用权重平均来提高预训练语言模型的泛化能力

介绍了一种称为 AdapterSoup 的方法，通过对具有不同超参数的预训练语言模型适配器进行权重平均化从而提高在新领域的性能，同时使用文本聚类等方法选择哪些适配器进行组合，有效解决了在资源受限或领域特定问题下适配器训练的实践性问题。

Feb, 2023

机器翻译领域自适应的有效性

该论文探讨了加速最近邻机器翻译的几种方法，其中介绍了一种简单但有效的缓存策略，避免了之前出现过的类似上下文的再次检索。翻译质量和运行时间表明了这些解决方案的有效性。

Apr, 2022

领域适配器混合模型：从预训练语言模型中解耦和注入领域知识

本文介绍了一种基于预训练语言模型和适应领域的新型领域自适应方法，通过两个阶段的适配器调整策略（在无标签数据上先进行领域适配器调整，然后进行标签数据上的任务适配器调整），可以同时提高在特定领域、跨领域和知识密集型任务中的性能。

Jun, 2023

用于神经机器翻译领域自适应的剪枝扩张模型

该研究介绍了一种基于神经机器翻译的重要性修剪方法，通过知识蒸馏和参数细调，解决了域自适应中的遗忘、差异和模型爆炸等问题，从而达到了在通用域和特定域翻译中都取得显著提高的目的。

Mar, 2021

多语言领域自适应翻译：通过适配器解耦语言和领域信息

本文研究了在机器翻译领域中适配器的组成方法，旨在实现多领域和多语言（全资源场景）的参数效率适配，或在无法提供特定语言对的平行数据（部分资源场景）中的跨语言转移。适配器通常由语言特定的适配器和领域特定的适配器组成，但这篇论文发现了将两种适配器简单组合的方法往往会造成缺失语言的灾难性遗忘，因此提出了新的适配器组合方式以减轻这一问题，并最大程度地实现跨语言转移。通过此种最佳适配器组合方式，我们实现了在没有场内数据的源语言上平均提高 3-4BLEU，而在没有场内数据的目标语言上与反向翻译相结合也达到了类似的改进。

Oct, 2021

通过协调域编码器和匹配分类器的多源域自适应

提出了一种新颖的多源自动未标注模型，可在领域转移下进行文本分类。

Jan, 2022