用于跨语言迁移的可组合稀疏微调
插件调整适用于预训练语言模型中;本研究基于稀疏适配器通过带放大系数的参数情况,实现了大的模型容量;通过使用 SNIP 方法和适当的系数,稀疏适配器可以始终优于对应的常规适配器,并且大稀疏设置可以获得进一步的性能提升,甚至可以大幅超过完全微调的性能。
Oct, 2022
本文提出了一种任务不可知的生成稀疏掩码的方法,仅使用预训练参数的振幅信息,可以显著提高性能和存储效率,并引入了一种新颖的适配器技术,可以直接应用于预训练参数,与全细调速度相同。
May, 2023
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
本文研究了基于 Adapter 的微调方法。实验证明,对于某些具有挑战性的任务,Adapter-based tuning 方法比 fine-tuning 效果更好,并且更抗过拟合和更不敏感于学习率的变化。
Jun, 2021
通过采用自适应的、稀疏的多语言建模结构,实现共享参数和语言特定参数的学习,提高正向转移和减轻干扰,从而达到改善翻译质量和保持推理效率的目的。与标准 Transformer 相比,我们在多项基准测试中的表现都超过了强基准,特别是在使用 100 种语言的大规模 OPUS 数据集时,对于一对多、多对一和零 shot 任务分别提高了 2.1、1.3 和 6.2 BLEU 分数,未增加推理成本。
Apr, 2021
通过适配器微调,我们研究了开展统一模型以有效处理多个口语处理任务的潜力,并在 SUPERB 基准测试中实验证明,适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4%,同时在参数更新方面保持高效。
Jun, 2024
本研究提出一种在多语言预训练模型中解决遗忘问题的方法 -- 使用结构适配器仅更新 0.6%的总参数进行微调,取得了代码搜索和汇总任务的最新成果,并在跨语言和低资源情景下实现了良好的性能。
Mar, 2023
通过在预先训练的模型中插入轻量级适配器模块,将自监督语音模型适应到说话人验证任务中,我们提出了一个高效的适配器框架。实验结果表明,该框架在更新仅 5% 的参数的情况下,超过了微调和其他参数高效的迁移学习方法,实现了卓越的性能。
Mar, 2024
本文研究了利用 adapters 实现单语言检索模型的跨语言迁移,证明了使用 adapters 的密集检索模型在语言迁移方面比整个模型 fine-tuning 更加有效。
Dec, 2022
研究采用稀疏微调掩码和适配器等参数优化方法,提出轻量级的零 - shot 转移多语言和跨语言检索算法,能够快速生成更为高效精确的语义排名结果。
Apr, 2022