该研究旨在在零 - shot 设置中找到高质量的 prompt。我们的自动化方法使用位置、推理和释义技术生成多个与基本 prompt 类似的 prompt,然后使用新的度量标准对这些 prompt 进行排名。我们实验证明,排名靠前的 prompt 是高质量的,显著优于基本 prompt 和使用 few-shot learning 生成的 prompt,适用于句子级情感分类任务。
May, 2023
本研究证实了即使是故意无关或甚至有误导性的提示,也可以让一些零样本或少样本学习模型像 “好” 的提示一样快地进行学习,这一模式适用于模型尺寸大小,这引出一个问题,问这种改进是不是源于模型像人类一样理解掌握任务提示。
Sep, 2021
本文探讨了如何利用未标记的数据以提高自然语言处理任务的零样本性能,并通过规范提示一致性来鼓励模型的一致预测,并取得了实验结果上的进展和成果。
Apr, 2022
通过将广泛多样的监督数据集转换为易读提示集合的方式,使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现,该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能,并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。
Oct, 2021
该论文综述了大型语言模型在自然语言处理任务中的重要性,并聚焦于不同类型的提示(如离散、连续、少样本和零样本)及其对模型性能的影响。论文探讨了手动设计、优化算法和评估方法等多种提示设计方法,以优化模型在不同任务中的性能。此外,论文还讨论了评估提示性能所面临的挑战,并指出了提示设计在充分利用大型语言模型的潜力中的关键作用,为在自然语言处理任务中更有效、更高效地使用大型语言模型提供了启示。
Sep, 2023
通过对语言模型的提示和降低困惑度等优化,可以改善模型在 zero-shot 学习中的性能。
Dec, 2022
提出一种不依赖标签数据或梯度更新的 “零标签提示选择” 方法(ZPS),通过使用伪标签的方式来选择最优的提示,实现零标签任务的高性能。在零标签性能方面,ZPS 显著改善了先前方法,并将其扩展到少量样本的情况下,表现优于强基线模型。
Nov, 2022
通过最全面的实证研究,发现在自然语言理解任务中,提示位置对模型性能有很大的影响,提示模板的优化是一个有趣的研究方向。
本研究介绍了一种评估框架,以实证分析提示对 AI 生成文本检测准确性的影响,我们评估了多个零样本检测器,揭示了提示对检测准确性的显著影响。
Mar, 2024
在这项研究中,我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能,发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释,并提出了对提示研究更健壮和综合的评估标准的建议。
Nov, 2023