使用强大的自学方法适应不同语言和领域的预训练语言模型特征

Sep, 2020

使用强大的自学方法适应不同语言和领域的预训练语言模型特征

Feature Adaptation of Pre-Trained Language Models across Languages and Domains for Text Classification

Hai Ye, Qingyu Tan, Ruidan He, Juntao Li, Hwee Tou Ng...

TL;DR本研究中，我们探究了将预训练语言模型（PrLMs）特征适应新域的方法，而非像以往一样对其进行精细调整。我们提出了面向无监督域适应(UDA)的类感知特征自蒸馏（CFd）算法，能够有效地提高跨领域和跨语言设置下的模型稳健性。

Abstract

Adapting pre-trained language models (PrLMs) (e.g., BERT) to new domains has gained much attention recently. Instead of fine-tuning PrLMs as done in most previous work, we investigate how to adapt the features of PrLMs to new domains without fine-tuning. We explore →

发现论文，激发创造

BERT无监督领域自适应的知识蒸馏

利用BERT预训练语言模型，结合领域适应性方法和知识蒸馏算法，提出了一种简单而有效的无监督领域适应方法，称为对抗适应与蒸馏，在30个领域对跨领域情感分类的任务中取得了最先进的性能。

Oct, 2020

预训练跨语言语言模型的无监督领域自适应

本文提出了一种用于自动提取领域特定特征和领域不变特征的无监督特征分解方法，并利用互信息估计将交叉语言表示计算所述的跨领域和跨语言（CLCD）设置分解为领域不变和领域特定部分，实验结果表明，我们提出的方法在CLCD设置中取得了显著的性能提升。

Nov, 2020

无监督领域自适应语言建模

本文中，我们探索了使用预训练的语言模型进行下游任务的无监督领域适应（UDA）。我们提出了UDALM，一种微调过程，使用混合分类和蒙面语言模型损失，可以以强健和样本高效的方式适应目标域分布。我们的实验表明，使用混合损失训练的模型的性能与可用目标数据的数量成比例，并且可以有效地用作UDA训练中的停止准则。此外，我们还讨论了A距离和目标误差之间的关系，并探索了域对抗训练方法的一些局限性。我们的方法在Amazon评论情感数据集的12个领域对上进行评估，得到了91.74％的准确率，比最先进技术提高了1.11％的绝对值。

Apr, 2021

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于BERT BASE模型，同时比BERT BASE小3.3倍，快5.1倍。

Jun, 2021

自然语言处理中基于Transformer的预训练模型综述

本论文对基于Transformer的预训练语言模型进行了全面调查，并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及T-PTLMs的新分类法，提供了各种有用的库以及未来研究方向，该论文可作为学习核心概念和了解T-PTLMs近期进展的参考资料。

Aug, 2021

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

利用自我监督提升跨域语音识别能力

本文提出了一种系统的无监督领域自适应框架，利用自监督方法在预训练和微调范式中充分利用无标签数据，在解决提高自监督方法在异领域性能的同时，通过提出三种创新性的调整方法，有效地提高了自适应领域的性能。

Jun, 2022

关于预训练语言模型的领域自适应和泛化：一项综述

本文介绍了近年来自然语言处理中预训练语言模型（PLMs）的最新进展，并为适应目标领域提供了一种有效的方法。考察了PLMs的应用问题并提出了域自适应方法的分类方案，包括输入扩充、模型优化和个性化等方法。

Nov, 2022

自监督蒸馏的两阶段跨领域文本分类框架

本文提出了一种二阶段跨域文本分类的框架，使用掩蔽语言模型和标记数据从源域进行模型微调，然后使用自监督蒸馏和目标域的无标注数据进一步微调模型，实验结果表明我们的方法在单源域（94.17％ ↑1.03％）和多源域（95.09％ ↑1.34％）适应都达到了最新的最先进水平。

Apr, 2023

FEUDA: 极其简便的基于提示的无监督领域自适应

通过在无标签数据上进行句子掩码模型训练（MLM）和源标记数据上进行监督指导训练，采用自监督学习和提示模型术语分类方法，我们提出了一种叫做困难易化领域适应（FEUDA）的方法，通过训练一个自回归语言模型，从源和目标领域的标签和无标签示例中，来学习领域不变表征，以提高目标领域的分类性能。

Jan, 2024