自适应分词的语言模型高效域适应
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法,在 IT 领域的三个任务中,采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。
Oct, 2020
我们的研究表明,分词对于现代 LLMs 至关重要,而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验,并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现,在超过 500 亿个标记的细调过程中,可以对预训练 LLMs 的分词器进行专门优化,从而显著提高生成速度和有效上下文大小。
Feb, 2024
本研究通过研究不同领域和任务的分类模型,验证了在特定领域和任务上进行二次预训练(领域自适应和任务自适应预训练)可以显著提高性能,同时也发现多阶段适应预训练在任务表现上取得了大幅提升。
Apr, 2020
本文提出了一种使用计算有效的适配器方法在多个不同领域适应的方法,其通过冻结预先训练的语言模型并与每个节点相关联的适配器权重组合,实现相关领域之间的参数共享。GPT-2 和 C4 中最多的 100 个网站上的实验结果表明,这种方法可以全面提高领域内性能,并提供了一种推理时间算法来推出新领域的泛化性能,同时只能增加成本。
Dec, 2021
本文探讨了如何利用适当的遮罩策略来提高基于掩蔽的语言模型在领域自适应任务上的性能,并提出了一种有效的训练策略,即通过对更难以恢复的标记进行对抗性遮蔽,以使模型更好地适应目标任务。通过六个无监督领域适应任务,该方法在命名实体识别方面显著优于随机遮蔽策略,提高了 1.64 个 F1 分数。
Oct, 2020
本文介绍了基于目标域文本的 Word2Vec 的训练和对齐策略,用于适应已有的预训练语言模型,并在生物医学实体识别任务和 Covid-19 问答任务上取得了 60% 的 BioBERT-BERT F1 差距的覆盖率,且成本仅相当于 BioBERT 的 5% 的 CO2 排放和 2% 的云计算成本。
Apr, 2020
本文研究了对于预训练语言模型(如 BERT),是否通过时间适应可以提高性能。结果表明,时间性适应和微调都可以提高性能,但是对于下游任务,时间性适应并不能比仅适应领域更为有效。
Apr, 2021
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020