kNN Prompting: 无需校准的最近邻推理,超越上下文学习
本文提出了一种基于最近邻校准框架的预训练语言模型(PLMs)的上下文学习方法,该方法获得了显著的改进,并在某些情感分析任务中实现了与基于调优的方法相当的性能。
Dec, 2022
通过理论和实证研究,我们首次确定了上下文学习中的标签偏移现象,并提出了一种生成校准方法,通过调整标签边际分布来校准上下文预测分布,实验证明该方法在文本分类任务中显著且一致地优于其他校准方法,同时对于不同的提示配置也表现稳定。
Oct, 2023
我们提出了一种新的方法,Adversarial In-Context Learning (adv-ICL),通过使用一个 LLM 作为生成器,另一个作为鉴别器,以及第三个作为提示修改器来优化背景学习中的提示。我们表明,adv-ICL 在包括摘要、算术推理、机器翻译、数据生成和 MMLU 和 big-bench 难度基准等 11 个生成和分类任务上,相对于最先进的提示优化技术取得了显著的改进。此外,由于我们的方法使用预训练模型,并且仅更新提示而不是模型参数,它在计算上是高效的,易于扩展到任何 LLM 和任务,并且在资源有限的环境中是有效的。
Dec, 2023
通过对现有校准方法的系统分析,我们提出了一种简单而直观的批量校准(BC)方法,它控制了批量输入的上下文偏差,统一了各种先前的方法,并有效解决了上述问题,这种方法是零 - shot、只有推理过程中存在,且额外成本极低。在少样本设置下,我们进一步扩展了 BC,使其能够从标记数据中学习上下文偏差,并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证,证明了 BC 的有效性,并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。
Sep, 2023
通过使用新的线性校准技术(LinC),在仅需少量数据样本(如仅五个标记数据样本)的情况下,对于以 in-context learning(ICL)为基础的 GPT 模型进行概率输出校准,从而达到可靠的预测和改善性能,并显著提升 GPT 模型在各种基准数据集上的测试性能,平均改善率高达 21%,某些情况下高达 50%,尤其在资源有限的情况下提升 PEFT 方法的性能,同时具有较低的期望校准误差,并对不同的标签比例、提示模板和演示排列都具有高度的鲁棒性。
Jan, 2024
研究了 k-nearest neighbor LM 以及 kNN-Prompt 模型在少数样本和零样本任务准确度上的性能,发现其对于扩展任务特定的模糊单词十分有效,且具有在领域适应中快速提高准确度的优势。
May, 2022
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中,通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明,该方法在 Spider 数据集上超出了最先进系统 2.5 个点,超出了最佳微调系统 5.1 个点。
May, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023