通过插入可学习的嵌入或软提示到预训练语言模型 (PLM) 的输入层,Soft Prompt Tuning (SPT) 是一种将 PLM 调适到特定任务的参数高效方法,无需修改其参数。本文研究了 SPT 在跨语言传递中的潜力,并通过冻结模型参数并只训练软提示以保持 SPT 的参数高效性,不仅减少了计算成本和存储开销,还证明了这一特性能够增强对语言上远离的语言的跨语言传递性能。此外,我们还探索了与软提示相关的不同因素(如长度或重新参数化)对跨语言传递性能的影响。
Feb, 2024
本文提出了一种新颖的框架,Selective Prompt Tuning (SPT),通过在每个中间层插入由可学习的概率门控制的提示来学习选择适当的提示层,进一步提出了一种新颖的双层优化框架 SPT-DARTS,可以更好地优化可学习门并改善所学提示层设置的最终提示调整性能,实验证明我们的 SPT 框架在全数据和少样本情况下比以往的最先进的 PETuning 基准方法表现更好,参数可调性相当或更少。
Oct, 2023
本篇论文旨在研究在密集检索中,如何利用深度提示调整来减少部署成本,提出了两种与预训练语言模型和密集检索任务兼容的方法,并在 MS-MARCO 和自然问题数据集上取得了优于之前最先进模型的效果。
Aug, 2022
SPT 是一种半参数化的提示微调方法,其包含一个内存库,可以根据离散提示检索记忆提示,并通过 Fine-Tuning GLUE 数据集以及在五个自然语言处理任务类别下评估零 - shot 泛化以及在 SuperGLUE 数据集上预训练,众多实验证明了其有效性。
Dec, 2022
SPT 模型能够通过选择性提示调整语言模型以实现个性化对话,大幅提高响应的多样性,并改善其他关键性能指标,从而在促进吸引人和个性化对话生成方面显示出高效性。
Jun, 2024
本文探索了通过提示调整获得的软提示如何在零样本推理中协助硬提示,以实现任务泛化。结果表明,此简单方法仅增加了 0.007%的额外参数,但在大型基准测试上提高了 2.39%的平均准确率,对不同评估提示的准确性和鲁棒性有更好的排名。
Oct, 2022
本文提出了基于大语言模型的 Few-shot Dense Retrieval 任务中 Prompt-based Query Generation for Retriever (Promptagator) 方法,利用少量任务单独的知识生成具有任务特定的检索器并使用 LLM 促进扩展性,与传统基于自然问题或 MS MARCO 的训练方式相比,使用 8 个或更少的样本提示 LLM 生成的双编码器可以显著提高检索性能达 1.2 个 nDCG 以上。
Sep, 2022
本文提出了 KD-SPD 方法,透過 soft prompt decoding 處理多種語言之雜亂和不平衡性,運用知識蒸餾戰略,將 teacher model 訓練出的檢索知識轉移到多語言文檔編碼器上,實驗顯示在三個多語言檢索數據集中表現優於主流的競爭算法,具有更少的語言偏見和更好的零樣本轉移能力。
May, 2023
本文考察了使用预训练的语言模型进行 Prompt tuning (PT) 的有效性,同时也研究了软提示在不同任务和不同模型之间的可迁移性,并发现神经元激活的重叠率是决定软提示可迁移性的重要指标。我们的发现表明,软提示迁移有望改善 PT,并建议进一步研究提示对模型的刺激方法
Nov, 2021
本文提出了一种针对开放域问答中重新排序的特定段落提示调优方法(PSPT),该方法能够通过微调可学习的段落特定软提示,并结合限定的问题 - 段落相关性对段落特定知识进行增强,以基于模型生成问题的对数似然和学到的软提示对检索到的段落进行排序。通过在三个公开可用的开放域问答数据集上使用 Llama-2-chat-7B 模型进行广泛实验,结果证明了所提方法的有效性。
May, 2024