借助对比演示和显著性地图探究上下文学习
该研究从一种新的视角探索了 In-Context Learning (ICL) 机制,通过构建 Comparable Demonstrations (CDs) 来减少演示偏差,从而提供了对 ICL 演示选择策略的更深入理解。
Dec, 2023
通过对三个文本分类任务的广泛实验,我们发现在选择演示示例时,不仅选择语义上相似的演示示例有益,还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是,我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。
Sep, 2023
通过实证研究,我们在文中将 ICL 的整体表现分解为三个方面,即标签空间、格式和区分能力,并评估四种通用语言模型在各种任务中的性能。结果显示,虽然示范对于激发语言模型的区分知识的影响较小,但 ICL 对于调节标签空间和格式的表现具有显著效果,并能帮助语言模型按照期望的标签进行响应。此外,我们通过对检索机制的深入分析发现,检索最语义相似的示例明显提升了模型的区分能力。
Apr, 2024
我们基于 `Label-Correctness Sensitivity` 和 `Ground-truth Label Effect Ratio` 这两个新颖的度量标准,重新审视了在上下文学习中使用示范的重要性,发现正确的输入 - 标签映射对上下文学习的性能有着不同的影响,取决于实验设置等关键组成部分。我们还确定了 `提示模板的详细程度` 和 `语言模型大小` 等因素是实现更强的抗噪声上下文学习的关键因素。
May, 2022
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
通过使用影响函数分析训练样本的影响力,我们提出了一种名为 InfICL 的演示选择方法,用于选择对 In-Context Learning(ICL)有高影响力的训练样本,从而提高 ICL 的泛化性能,并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。
Feb, 2024
本文研究了使用演示数据对大型语言模型(LLMs)进行上下文学习(ICL)的安全问题,并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法,结果表明,随着演示数量的增加,ICL 的鲁棒性会降低,并呼吁对 ICL 的鲁棒性进行广泛研究,特别是在 LLMs 的发展中。
May, 2023
本文通过信息流视角调查了示例中核心单词在对应学习任务中扮演的角色,并提出了一种锚点加权方法来提高学习效果,一种演示压缩技术来加速推断,并提出了一种分析框架来诊断 ICL 中的错误,并为未来的研究奠定了基础。
May, 2023
本研究分析显示:大型语言模型不需要准确的演示,而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此,揭示了语境学习的原理和作用方式,同时提出了新的问题,即能否仅仅通过推理来学习大型语言模型的更多内容。
Feb, 2022