贝叶斯多任务转移学习用于软提示调优
通过使用新的Transformer架构,包括一种新的条件注意机制以及一组任务条件模块,旨在促进权重共享,我们实现了更有效的参数共享,并通过保持预训练模型的一半权重来缓解遗忘。同时,我们使用了新的多任务数据采样策略来减少任务之间数据不平衡的负面影响。与其他BERT Large方法在GLUE上相比,我们的八任务模型超过了其他Adapter方法2.8%,而我们的24任务模型在使用MTL和单任务微调的模型上表现优异。我们还展示了我们的单个多任务模型方法的较大变体在26个NLP任务中竞争,并在一些测试和开发集上取得了最先进的结果。
Sep, 2020
本文介绍了一种使用少量参数进行预训练语言模型在下游任务中的应用实现,该方法名为SPoT:Soft Prompt Transfer,通过学习源任务的prompt来初始化目标任务的prompt,从而提升了Prompt Tuning的性能,并在语言模型大小上向SuperGLUE基准匹配或胜过标准模型调整,同时减少了多达27,000倍的任务特定参数,可以通过大规模的实验证明prompt的任务可传递性,最后还提出了一种高效的检索方法来识别相似的任务和预测最适合新目标任务的来源任务。
Oct, 2021
本文考察了使用预训练的语言模型进行 Prompt tuning (PT)的有效性,同时也研究了软提示在不同任务和不同模型之间的可迁移性,并发现神经元激活的重叠率是决定软提示可迁移性的重要指标。我们的发现表明,软提示迁移有望改善 PT,并建议进一步研究提示对模型的刺激方法
Nov, 2021
本论文提出了一种名为 ATTEMPT 的新型多任务、参数高效的语言模型微调方法,通过简短的前缀嵌入向量预先训练不同任务,学习跨任务传递知识。该方法通过源提示的编码,在每个实例中对目标任务进行源提示和新初始化的目标提示的插值训练注意力模块。在训练期间,仅更新目标任务提示和注意权重,同时保持原始语言模型和源提示不变。实验结果表明,ATTEMPT 显著优于提示微调,并优于或匹配完全微调或使用超过十倍参数的其他参数高效调整方法。最后,在少次学习设置下,ATTEMPT 优于以前的工作。
May, 2022
本文关注于如何提高Prompt tuning在few-shot learning任务中的性能。作者们实现了带有多种source prompts的简单方法,通过进行模型输出的组合来达到更好的性能,并提出了Sample-specific Ensemble of Source Models (SESoM)方法。他们在八个NLP任务上进行了实验,通过一个大的优势超越了相同和大型参数规模的现有模型。
Oct, 2022
SPT是一种半参数化的提示微调方法,其包含一个内存库,可以根据离散提示检索记忆提示,并通过Fine-Tuning GLUE数据集以及在五个自然语言处理任务类别下评估零-shot泛化以及在SuperGLUE数据集上预训练,众多实验证明了其有效性。
Dec, 2022
本文研究了元提示调整(meta prompt tuning)来探索元学习如何通过学习从其他相关任务中初始化提示嵌入来帮助改善PT中的跨任务推广。我们在广泛的适应设置中经验性地分析了代表性的元学习算法,并从任务相似性的角度提供了深入的分析。实验结果表明,MPT的改进在分类任务中显著。
Feb, 2023
我们提出了多任务提示调整(MPT)方法,该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示,然后学习该共享提示的乘性低秩更新,以高效地将其适应每个下游目标任务。在23个自然语言处理数据集上进行的广泛实验表明,我们的方法在某些情况下优于最先进的方法,包括完全微调基线方法,尽管只有0.035%的特定于任务的参数被调整。
Mar, 2023
本研究解决了现有软提示方法在多任务情况下需重复训练的问题,提出了通过软提示的调优权重与随机初始化权重之间的元素差异构建任务提示向量的新方法。实验表明,任务提示向量能够在低资源环境下有效初始化相似任务的提示调优,并且与随机初始化无关,从而在多个任务的加法运算中表现优于某些先进基线。
Aug, 2024
本研究解决了多任务提示调优在知识转移方面的性能不足问题。提出了一种新的方法,将目标任务的提示分解为共享提示和特定任务提示,通过组合来优化最终提示。在少样本设置下,该方法显著提高了准确性和稳健性,相较于传统提示调优方法和其他相关研究,显示出更优越的表现。
Aug, 2024