适配器效率的全面分析
本文提出 LLMs-Adapters 框架,利用少量可调参数对小型 LLMs 进行 fine-tuning,实现对各种任务的支持;在六种数学推理数据集上的实验表明,将 adapter-based PEFT 应用于小型 LLMs(7B)可以取得与强大的 LLMs(175B)相似甚至更优秀的性能,旨在推进 adapter-based PEFT 的研究,为 LM 大规模的 fine-tuning 提供了有价值的工具和框架。
Apr, 2023
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
引入 X-PEFT,一种新的参数高效微调方法,通过微调极小的紧凑张量,作为二进制掩码来自适应地选择给定适配器,从而解决适配器数量线性增加的问题,相较于传统的适配器微调,在每个配置文件的内存需求减少了 10000 倍,而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。
Jan, 2024
本文研究了基于 Adapter 的微调方法。实验证明,对于某些具有挑战性的任务,Adapter-based tuning 方法比 fine-tuning 效果更好,并且更抗过拟合和更不敏感于学习率的变化。
Jun, 2021
本文通过全面实证研究发现,适当的 Tuning 数量的 Parameter-efficient fine-tuning methods,特别是使用了嵌入小型前馈神经网络 (adapters) 的模型,可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平,尤其当参数预算为 10%的情况下。但是,当调优参数数量减少时,PEFT 的性能会随之减弱,这一降低幅度取决于语言对的关系,而对于小型数据集,PEFT 的性能优于同样的预训练模型的全模型调整。
May, 2022
本研究提出一种在多语言预训练模型中解决遗忘问题的方法 -- 使用结构适配器仅更新 0.6%的总参数进行微调,取得了代码搜索和汇总任务的最新成果,并在跨语言和低资源情景下实现了良好的性能。
Mar, 2023
使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调,比较它们在参数效率方面的表现,结果显示 adapter 是效果最好的 PEFT 方法。
Jun, 2024
Adapters 是一个开源库,将参数高效和模块化的迁移学习统一起来,通过整合 10 种不同的适配器方法,提供简便的使用和灵活的配置;该库通过组合模块允许研究人员和从业者利用适配器的模块化设计复杂的适配器设置;通过在各种自然语言处理任务上评估其性能,我们展示了该库的有效性;Adapters 为解决传统微调范式的挑战和促进更高效和模块化的迁移学习提供了一个强大的工具;该库可通过此链接获取。
Nov, 2023
为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头,在不同数量的训练数据和时间限制下,与全模型微调相当。即使只使用 30% 的数据,它也表现出明显的稳定性,在中等数据水平上优于全模型微调。适配器模块的性能变异较大,在默认模型上的收益一致性较差。研究结果表明,BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角,强调了其鲁棒性,并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南,同时展示了适配器模块等稳定技术面临的挑战。
Jan, 2024