可适配的适配器
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
本文介绍了通过使用超适配器,克服多种语言间负面干扰和参数共享问题。研究表明,相比于传统适配器,超适配器具有更少的参数数量和更好的性能表现,且能够促进跨语言的积极转移。
May, 2022
Adapters 是一个开源库,将参数高效和模块化的迁移学习统一起来,通过整合 10 种不同的适配器方法,提供简便的使用和灵活的配置;该库通过组合模块允许研究人员和从业者利用适配器的模块化设计复杂的适配器设置;通过在各种自然语言处理任务上评估其性能,我们展示了该库的有效性;Adapters 为解决传统微调范式的挑战和促进更高效和模块化的迁移学习提供了一个强大的工具;该库可通过此链接获取。
Nov, 2023
研究了适配器在信息检索领域中的应用,指出适配器 - SPLADE 可以优化只有 2%的训练参数,比全微调模型和现有的参数高效密集 IR 模型表现更佳,并探讨了适配器在跨领域 BEIR 数据集和 TripClick 上的领域自适应,以及 正确性的知识共享,从而完善了适配器在神经 IR 中的研究。
Mar, 2023
适配器提供了一个高效轻量级的机制,可以将训练好的变换器模型适应不同的任务。本文对适配器进行了深入研究,包括其内部结构和各种实现选择,并提出了一种改进的适配器架构,称为 Adapter+,它不仅优于之前的适配器实现,还在一些具有挑战性的场景中超越了其他更复杂的适应机制。与之前的工作不同,我们的 Adapter + 在应对新的情景时几乎不需要人工干预,具有极高的鲁棒性。即使没有针对每个任务的超参数优化,Adapter + 也能在 VTAB 基准测试中达到最先进的平均准确率。
Jun, 2024
通过对多个 adapter、任务和语言在有监督和跨语言零 - shot 设置中进行广泛实验,作者发现对于自然语言理解任务,adapter 的参数效率并不会转化为与全微调一样的效率优势。同时,使用多任务训练通过全微调也能达到与 adapter 相同的可维护 / 可扩展性,而且提供相对更快的训练时间。因此,作者推荐在 NLU 任务中,从业者应该依赖于全微调或多任务训练而不是使用 adapter。
May, 2023
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
插件调整适用于预训练语言模型中;本研究基于稀疏适配器通过带放大系数的参数情况,实现了大的模型容量;通过使用 SNIP 方法和适当的系数,稀疏适配器可以始终优于对应的常规适配器,并且大稀疏设置可以获得进一步的性能提升,甚至可以大幅超过完全微调的性能。
Oct, 2022
通过在预先训练的模型中插入轻量级适配器模块,将自监督语音模型适应到说话人验证任务中,我们提出了一个高效的适配器框架。实验结果表明,该框架在更新仅 5% 的参数的情况下,超过了微调和其他参数高效的迁移学习方法,实现了卓越的性能。
Mar, 2024
论文提出了 AdapterHub 框架,该框架建立在 HuggingFace Transformers 库之上,用于动态添加不同任务和语言的预训练 Adapter,以避免对整个模型进行完全微调。该框架使得下载、分享和训练 Adapter 尽可能无缝,并能在低资源情况下方便地分享任务特定模型。
Jul, 2020