利用单词嵌入正则化进行语言模型的任务自适应预训练
本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展,然后系统地从四个角度分类现有的预训练模型,接下来介绍如何将预训练模型的知识应用于下游任务,并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南,帮助理解、使用和开发各种自然语言处理任务的预训练模型。
Mar, 2020
本文介绍了基于目标域文本的Word2Vec的训练和对齐策略,用于适应已有的预训练语言模型,并在生物医学实体识别任务和Covid-19问答任务上取得了60%的BioBERT-BERT F1差距的覆盖率,且成本仅相当于BioBERT的5%的CO2排放和2%的云计算成本。
Apr, 2020
本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于BERT BASE模型,同时比BERT BASE小3.3倍,快5.1倍。
Jun, 2021
本论文对基于Transformer的预训练语言模型进行了全面调查,并介绍了自监督学习、预训练方法、嵌入、下游适应方法等核心概念以及T-PTLMs的新分类法,提供了各种有用的库以及未来研究方向,该论文可作为学习核心概念和了解T-PTLMs近期进展的参考资料。
Aug, 2021
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021
该文章研究了在TAPT过程中只训练BERT模型的嵌入层对模型性能的影响,并提出了一种简单的方法来使BERT模型在中间步骤更加高效,该方法是培训BERT模型的嵌入层,可以适应目标领域的词汇并达到可比较的性能。
Sep, 2022
通过使用具有高度信息量的训练数据子集训练预训练语言模型,同时保持下游性能,我们展示了如何利用子模块优化来选择高度代表性的训练语料库子集,以有效地训练多个预训练语言模型。
May, 2023