使用适配器将知识注入预训练模型

Feb, 2020

使用适配器将知识注入预训练模型

K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang...

TL;DR提出 K-Adapter 框架以支持在 RoBERTa 上进行多种类型的知识注入，该框架拥有一个适配器与 RoBERTa 相连，并且在适配器之间没有信息流动，因此可以以分布式方式有效地训练多个适配器。通过在三个知识驱动的任务上的实验，如实体分类、关系分类和问题回答，证明了每个适配器都可以提高性能，并且两个适配器的组合带来了进一步的改进。与 RoBERTa 相比，进一步的分析表明，K-Adapter 更能捕捉不同类型的知识。

Abstract

We study the problem of injecting knowledge into large pre-trained models like BERT and RoBERTa. Existing methods typically update the original parameters of pre-trained models when injecting knowledge. However,

knowledge infusion k-adapter pre-trained models adapter neural network

发现论文，激发创造

常识还是世界知识？研究基于 Adapter 的预训练 transformer 知识注入

本文介绍了通过适配器训练在 BERT 的分布式知识基础上，将 ConceptNet 和其对应的 OMCS 语料库的概念知识注入到语言模型中以提高推理性能的方法。实验结果表明，适配器训练得到的模型在需要 ConceptNet 和 OMCS 所代表的概念知识进行推理的任务中表现显著优于 BERT。

May, 2020

运用适配器模块和知识图谱拓宽生物医学语言模型的知识增强

本文介绍了一种使用轻量级适配器模块将结构化的生物医学知识注入到预训练语言模型中的方法，并对该方法在三个下游任务中的性能进行了测试和分析。

Dec, 2023

透过 Adapter 实现基于预训练语言模型的强大迁移学习

本文提出了一种简单而有效的适配器方法来提高预训练模型在下游任务的稳定性和抗攻击性。该方法为预训练模型的每层插入小型的瓶颈层，然后在下游任务数据上固定预训练层并训练适配器层，通过在任务特定的无监督训练和监督训练 (e.g., 分类、序列标注) 的过程中，提高了转移学习的性能。

Aug, 2021

NLP 的参数高效迁移学习

通过适配器模块实现神经网络参数共享，避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能，同时每个任务只需增加 3.6％的可训练参数，表现十分出色。

Feb, 2019

预训练语言模型的即插即用知识注入

本研究提出了一种新的知识注入方法 -- 插拔式知识注入，并探究了一种新的注入方法 ——map-tuning，并通过三种不同的 NLP 任务验证了 map-tuning 方法的有效性，再次表明了插拔式知识注入的优越性。

May, 2023

知识图谱融合用于语言模型微调

探索将知识图谱注入 Bert 模型的微调阶段来提高语言理解，并通过实验证明注入相关高质量知识对于特定任务有显著的性能提升。

Jun, 2022

掩码语言建模和适配器对事实知识注入的有效性

本文研究了在大型预训练语言模型中注入实际知识的问题，并使用遮蔽语言建模目标训练 adapter 模块来评估该方法的成功性，证明该技术是有效的，将额外增加不到 2.1% 的参数到原始模型中即可提高在 LAMA 探针子集上的性能。

Oct, 2022

基于交叉模态衔接器的通用高效视觉知识注入预训练语言模型

本文提出了一种新的插入式模块 X-adapter，用于将预训练的 VLMs 的对齐视觉和文本知识灵活地融入 PLMs 中，以提高对象 - 颜色推理和自然语言理解 (NLU) 任务性能。

May, 2023

结合预训练语言模型和结构化知识

本文调查了将结构化知识集成到现有的语言模型中的各种方法，并确定了挑战和可能的机会，发现利用基于适配器的注入仍有机会，并且可能将多种探索过的方法进一步结合成一个系统。

Jan, 2021

AdapterDistillation: 无损任务组合与知识蒸馏

通过引入少量任务特定参数到每个 transformer 层中，利用多任务的知识，在最近广受关注的语言模型中，被称为 adapters。然而，为了实现知识组合，增加额外的融合层不仅增加推理时间，也对某些应用不具有可扩展性。为了避免这些问题，我们提出了一种名为 AdapterDistillation 的两阶段知识蒸馏算法。在第一阶段，我们通过使用本地数据训练一个学生适配器来提取任务特定的知识。在第二阶段，我们将现有的教师适配器的知识蒸馏到学生适配器中，以帮助其推理。在面向任务的对话系统中频繁提问的检索方面的大量实验证实了 AdapterDistillation 的效率。我们展示了 AdapterDistillation 在准确性、资源消耗和推理时间等方面优于现有算法。

Dec, 2023