微注意力适配器:上下文比参数数量更重要
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
该研究介绍了一种新的适应方法,使用 UniPELT 框架作为基础,并添加了 PromptTuning 层,从而在保持竞争力的同时显著减少了可训练参数的数量。该方法利用适配器实现了预训练模型向新任务的有效转移,无需重新训练基础模型参数。通过对三个不同数据集进行评估,研究结果表明,该基于适配器的方法在性能上与全模型微调、DAPT+TAPT 和 UniPELT 策略相当,而需要更少或相同数量的参数。这种参数效率不仅减轻了计算负担,还加快了适应过程。该研究强调了适配器在实现高性能以及显著节约资源消耗方面的潜力,为参数高效微调的未来研究方向提供了有益的提示。
May, 2024
本文研究了基于 Adapter 的微调方法。实验证明,对于某些具有挑战性的任务,Adapter-based tuning 方法比 fine-tuning 效果更好,并且更抗过拟合和更不敏感于学习率的变化。
Jun, 2021
本文提出了一种新的建模框架,将适配器调谐视觉 - 语言模型中的注意力转化为基于注意力图的图消息传递过程,其中,投影查询和值特征以及注意力矩阵构成节点特征和图邻接矩阵。在这个框架中,适配器调谐视觉 - 语言模型需要处理异种图,为此,我们提出了一种新的适配器架构 $p$-adapter,在图神经网络中使用 $p$-Laplacian 消息传递。我们在不同的预训练的视觉 - 语言模型和多模态任务上进行了大量实验,包括视觉问答、视觉蕴涵和图像字幕生成。实验结果验证了我们的方法在参数高效的迁移学习方法中的显著优势。
Dec, 2023
本文为多语言语音翻译(ST)提供了适配器的完整分析,其中适配器调整在 NLP 中作为微调的高效替代品,可使 ST 针对特定语言对进行专门优化,并从自动语音识别(ASR)任务和预先训练的 mBART 模型中进行转移,同时节省大量参数,具有与完全微调相当的可比结果。
Jun, 2021
Adapter-X 是一种新的框架,通过参数共享和动态分配,以及引入特定设计来提高适应性,在更少的参数下优于传统的微调方法。
Jun, 2024
透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間,本研究發現低精度的適配器達到與高精度適配器相當的性能,且 1 位精度就足夠。
Jul, 2023
通过引入适配器逐步减小其尺寸的方法,我们提出了 MiMi 训练框架,该框架能够在降低计算和存储成本的同时保持高性能,通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度,我们的方法在三个数据集基准 DomainNet、VTAB 和 Multi-task 上优于现有方法,寻找准确性和训练参数之间的最佳权衡。
Nov, 2023
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
Jun, 2021
本文提出了一种适应能力强的适配器层,不同数据集可采用不同的激活函数及适配器层,并且可选择最优的适配器层,以达到与标准适配器层相近的性能表现。这种新型适配器层可使模型的存储及训练效率更高,并能在低数据情况下取得更好的性能表现。
May, 2022