零样机任务推广的提示一致性
提出了FLEX原则,其中最重要的是新的基准设计方法Sample Size Design,可以优化统计精度和评估成本;基于该原则,发布了涵盖四种Few-shot转移设置和零-shot评估的FLEX基准测试,以及UniFew模型,后者能够将预训练和微调提示格式统一起来,并且即使是简单的提示格式,也能够取得与流行的元学习和提示为基础的方法相媲美的结果。
Jul, 2021
通过将广泛多样的监督数据集转换为易读提示集合的方式,使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零-shot 表现,该方法能够在多个标准数据集上表现出比同类模型大多数情况下强16倍的性能,并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强6倍的性能。
Oct, 2021
本文研究大型语言模型如何通过自然语言提示实现令人印象深刻的零-shot性能,归纳和标准化提示任务属性后,发现包含选项和使用未在预训练中使用的提示可以显著提高性能。
Mar, 2022
本文提出了一种理论框架,以解释在零/少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于perplexity的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
本文探索了通过提示调整获得的软提示如何在零样本推理中协助硬提示,以实现任务泛化。结果表明,此简单方法仅增加了0.007%的额外参数,但在大型基准测试上提高了2.39%的平均准确率,对不同评估提示的准确性和鲁棒性有更好的排名。
Oct, 2022
本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零-shot以及少量样本情况下语言模型的性能,并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零-shot及几轮试验下的效果提高至31%相对性能,然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐,以优化语言模型的性能。
Oct, 2022
本文提出了一种基于预训练语言模型的无参考学习方法NPPrompt,能够有效扩展一个预训练模型到多个语言理解任务,且不需要标注数据或附加未标注语料库进行微调。实验结果表明,NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。
Dec, 2022
通过研究,我们提出了一种自适应提示设计方法,能够使用只有少量未标记的数据和仅推理的LLM实现广泛的零-shot学习,该方法通过将NLP任务分类为三种类型,并使用相应的选择器选择最合适的查询和零-shot模型生成的响应作为伪证明,以完全自动化的方式将ICL推广到零-shot设置,从而呈现与少量-shot基线可比甚至优于的表现。
May, 2023
我们提出了一种零射击连续提示转移方法,通过将源提示编码为相对空间,并搜索相应的目标模型来传输,实验证实了我们方法的有效性,连续提示中的“任务语义”可以在各种语言模型中进行泛化。此外,我们发现从多个源模型中汇集“任务语义”可以进一步增强转移的泛化能力。
Oct, 2023
通过减小分布偏移,将零样本泛化的视觉-语言模型在未见领域中的性能提升了3.08%,并且在跨数据集泛化的情况下,在所有数据集上相对于现有的最先进方法有一致的改进。
Nov, 2023