利用单词嵌入正则化进行语言模型的任务自适应预训练

Sep, 2021

利用单词嵌入正则化进行语言模型的任务自适应预训练

Task-adaptive Pre-training of Language Models with Word Embedding Regularization

Kosuke Nishida, Kyosuke Nishida, Sen Yoshida

TL;DR该论文提出了一种名为TAPTER的新型fine-tuning方法，该方法可以通过调整PTLM的静态词嵌入来实现领域自适应，无需额外的语料库，并且能提高标准fine-tuning和任务自适应预训练在生物医学和维基百科领域的性能。

Abstract

pre-trained language models (PTLMs) acquire domain-independent linguistic knowledge through pre-training with massive textual resources. Additional pre-training is effective in adapting PTLMs to domains that are not well covered by the pre-training corpora. Here, we focus on the

发现论文，激发创造

无监督领域自适应的上下文嵌入序列标注

本文提出了一种基于掩码语言模型，在目标领域中调整上下文嵌入的方法，从而实现了序列标注的无人监督适应，获得了重要的改进，特别是在词汇表外的单词上。

Apr, 2019

自然语言处理的预训练模型：一项调查

本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展，然后系统地从四个角度分类现有的预训练模型，接下来介绍如何将预训练模型的知识应用于下游任务，并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南，帮助理解、使用和开发各种自然语言处理任务的预训练模型。

Mar, 2020

预训练语言模型的廉价领域自适应: 生物医学实体识别和 Covid-19 问答的案例研究

本文介绍了基于目标域文本的Word2Vec的训练和对齐策略，用于适应已有的预训练语言模型，并在生物医学实体识别任务和Covid-19问答任务上取得了60%的BioBERT-BERT F1差距的覆盖率，且成本仅相当于BioBERT的5%的CO2排放和2%的云计算成本。

Apr, 2020

不要停止预训练：将语言模型适应于领域和任务

本研究通过研究不同领域和任务的分类模型，验证了在特定领域和任务上进行二次预训练（领域自适应和任务自适应预训练）可以显著提高性能，同时也发现多阶段适应预训练在任务表现上取得了大幅提升。

Apr, 2020

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于BERT BASE模型，同时比BERT BASE小3.3倍，快5.1倍。

Jun, 2021

自然语言处理中基于Transformer的预训练模型综述

本论文对基于Transformer的预训练语言模型进行了全面调查，并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及T-PTLMs的新分类法，提供了各种有用的库以及未来研究方向，该论文可作为学习核心概念和了解T-PTLMs近期进展的参考资料。

Aug, 2021

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021

文本分类任务自适应预训练的简单高效方法

该文章研究了在TAPT过程中只训练BERT模型的嵌入层对模型性能的影响，并提出了一种简单的方法来使BERT模型在中间步骤更加高效，该方法是培训BERT模型的嵌入层，可以适应目标领域的词汇并达到可比较的性能。

Sep, 2022

INGENIOUS: 使用信息丰富的数据子集高效预训练大型语言模型

通过使用具有高度信息量的训练数据子集训练预训练语言模型，同时保持下游性能，我们展示了如何利用子模块优化来选择高度代表性的训练语料库子集，以有效地训练多个预训练语言模型。

May, 2023