语言模型在上下文中学习什么?结构任务假设
本研究探讨了大型语言模型利用情境学习来解决只有少量演示的任务的机制,发现情境学习从两个方面发挥作用:任务识别和任务学习,具有不同的性质和特点。
May, 2023
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
通过对三个文本分类任务的广泛实验,我们发现在选择演示示例时,不仅选择语义上相似的演示示例有益,还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是,我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。
Sep, 2023
使用全面实验证明,In-context learning 通常具有非常简单的结构,即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM,可将训练集 S 压缩为单个任务向量 θ(S),并使用该任务向量来调节 Transformer 以产生输出。
Oct, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响,以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术,我们发现在背景学习后,嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性,这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。
Sep, 2023
通过对 18 个字段密集型任务进行全面实验,我们发现,针对这些任务,大规模语言模型在使用上下文学习的方法上存在三个主要问题:无法准确理解上下文、与人类任务模式理解不匹配、对长文本理解能力不足。然而,通过微调,大规模语言模型能够在这些任务上取得不错的表现,表明上下文学习的失败并非大规模语言模型本身的固有缺陷,而是现有对齐方法的局限性导致大规模语言模型无法通过上下文学习来处理这些复杂任务。我们希望本文的分析结果能促进对齐方法的发展,使大规模语言模型能够满足更加复杂的人类需求。
Nov, 2023
利用大型语言模型和上下文学习,本研究提出了一种新的解释框架,展示了语言模型在解释其他预测模型方面的有效性,并通过实验证明了其与现有解释技术相媲美的性能,从而在可解释的人工智能领域开辟了新的研究前沿。
Oct, 2023