探究预训练语言模型的抽奖提示
本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt,能够有效扩展一个预训练模型到多个语言理解任务,且不需要标注数据或附加未标注语料库进行微调。实验结果表明,NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。
Dec, 2022
本文提出了一种基于实例的提示学习方法,用于不同实例的学习。该方法在双向和单向的 PLMs 上得到了相当大的提升,并在 SuperGLUE few-shot learning 基准测试上实现了最好的结果。
Jan, 2022
本文提出了一种名为 XPrompt 的新型 Prompt tuning 模型,采用分层结构裁剪方法消除负面的 prompt token 从而优化下游任务的表现,在 SuperGLUE 测试中,在小型模型中能够接近或优于微调方法的性能水平。
Oct, 2022
通过利用任务和提示的特征,AdaPrompt 使预训练语言模型不断预训练,提高了 NLP 方面几个基准测试中的表现,在零样本情况下相对误差降低了高达 26.35%。
Feb, 2022
Lottery Ticket Prompt-learning (LTP) framework integrates winning tickets with soft prompts to enhance the efficacy of small-sized models, particularly targeting low-resource languages.
Apr, 2024
本文提出了一种名为 PPT 的框架,通过在预训练阶段添加软提示来获得更好的初始化,将预训练提示调整用于下游任务可达到或甚至优于整体微调的效果,这对于实际使用大规模预训练语言模型是一种有效和高效的方法。
Sep, 2021
在本研究中,我们调查了小语言模型(具有不到 10 亿参数)与 prompt-learning 范例相结合,在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示,在少样本设置下进行基于提示的模型微调时,220M 参数的典型小语言模型 T5-base 可以在有限的标记数据(高达全数据的 15%)上实现约 75% 的准确性,显示了小语言模型与 prompt-learning 的巨大潜力。基于此,我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外,在固定模型的零样本设置中,我们强调了一个关键的观察结果,即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性,但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时,其准确性超过 31%,相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力,强调了主动少样本抽样和集成策略在少样本设置中的好处,并强调了零样本设置中提示工程的重要性。
Sep, 2023
本文提出了 Instance-wise Prompt Tuning (IPT)方法,该方法是基于 Prompt Learning 的新型范式,利用输入数据实例注入知识来生成更富有信息量和具体的上下文信息,并在多个任务和资源设置中显着优于任务为基础的 Prompt Learning 方法,达到仅有 0.5%-1.5%调整参数时的基准微调性能。
Jun, 2022
该研究提出了一种多级提示调优方法来增强机器阅读理解,通过利用任务特定、领域特定和上下文相关的提示,提高了输入语义在不同层次上的理解能力。同时,引入了独立性约束来避免冗余,并利用上下文相关知识生成合适的提示。在各种问答格式的 12 个基准测试中进行了广泛实验,相比最先进的方法,平均改进率达到了 1.94%。
Oct, 2023
本文提出了一种适应预训练语言模型的技术,这种技术在只有 API 访问的情况下,通过软提示调整的方法进行微调,并且不需要访问 PLM 的任何内部表示,同时学习的提示分布可以量化预测的不确定性。通过大量实验证明这种方法可以和基于梯度的完全访问 PLM 方法相竞争甚至超过它们。
Apr, 2023