高效调节的参数即任务嵌入
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
通过适配器模块实现神经网络参数共享,避免针对每个任务都需要重新训练整个神经网络的问题。将适配器模块应用于 BERT Transformer 可以达到接近完全微调的性能,同时每个任务只需增加 3.6%的可训练参数,表现十分出色。
Feb, 2019
本文旨在探究将自然语言处理大规模语言模型 fine-tuning 应用于其他任务是否有效,通过在三大问题领域(文本分类、问题回答、序列标注)的 33 个 NLP 任务上的数据验证,结果显示 transfer learning 在数据稀缺情况下更为有效,在源任务数据较少或与目标任务差异较大的情况下仍能提高性能,同时提出了可以预测给定目标任务最具可转移性源任务的任务嵌入,并验证其在数据大小、源和目标之间的有效性。最终的结果显示源数据大小、任务和领域的相似性和任务的复杂性在决定转移性方面起着关键作用。
May, 2020
本文提出了一种用于视觉,语言和视觉语言任务的通用参数高效的迁移学习方法 Predict-Interpolate Tuning(π-Tuning),它通过学习类似任务的轻量级任务专家的参数来帮助目标下游任务,并在一个统一的无模态空间中预测任务的相似性,从而产生可缩放图表以演示任务关系。研究表明,与微调和其他参数高效的迁移学习方法相比,π-Tuning 在全射和低射击区域都具有更好的性能。
Apr, 2023
本文介绍了一种基于 Prompt tuning 的神经文本检索方法,通过更新其中 0.1% 的参数,能够显著提高检索模型的泛化性能,在额外引入一份包括 87 个主题的来自学术领域的数据集的情况下,证明了这种检索方法的横向主题泛化性强于传统方法。
Jul, 2022
我们提出了一种基于多任务迁移学习的新型参数高效微调框架 (PEMT),通过在源任务上训练适配器的加权组合来捕捉可转移的知识,同时利用任务描述提示向量来衡量目标任务与每个源任务之间的相关性,以充分利用任务特定的知识并提高稀疏性。实验证明,我们的方法在各种任务上相较于完全微调、PEFT 和知识转移方法都取得了稳定的改进,突出了其能够充分利用多任务之间的知识和相关特征的有效性。
Feb, 2024
基于 Transformer 模型的代码 - 文本检索问题上,我们提出了一种使用参数高效微调技术的微调框架,并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验,我们证明了该微调框架有潜力通过微调最多 0.4%的参数来提高代码 - 文本检索性能。
May, 2024
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
May, 2023
本文探讨使用统计量来衡量不同任务间的相似性,从而减少 fine-tuning 的测试所需的任务对数量,并在 58 个任务和 6600 多个任务对组合上实验证明其可以提高任务的效率并显著降低运行时间。
Feb, 2023