大型语言模型中的上下文学习学习标签关系但非传统学习
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过研究大型语言模型,本文提出 Large language models 可以在面对语境示例时模拟核回归算法,并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归,并通过实证研究发现,LLMs 中的注意力和隐藏特征与核回归的行为相匹配,这些为 ICL 领域中观察到的多种现象提供了见解。
May, 2023
本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制,发现情境学习从两个方面发挥作用:任务识别和任务学习,具有不同的性质和特点。
May, 2023
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
基于多模式大型语言模型和大型语言模型,提出了一种新颖的上下文学习方法(In-Context Learning),通过加强因果关系,引导模型识别类比和数据点间的潜在因果关联,使模型能够识别未见过的图像和理解新概念更有效。
Aug, 2023
大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响,以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术,我们发现在背景学习后,嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性,这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。
Sep, 2023
本文通过一系列来自常见文本分类任务的实验,实证地探索了解释大型语言模型(LLMs)在上下文中学习的三种假设,证伪了前两种假设,并提供了支持最后一种假设的证据。结果表明,LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。
Jun, 2024