上下文学习是一种基于梯度的学习吗？来自结构引导中反向频率效应的证据

Jun, 2024

上下文学习是一种基于梯度的学习吗？来自结构引导中反向频率效应的证据

Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming

PDF

Zhenghao Zhou, Robert Frank, R. Thomas McCoy

TL;DR大型语言模型（LLMs）已显示出上下文学习（ICL）的新兴能力。研究对 ICL 的解释之一是将其功能性视为梯度下降。本文介绍了一种诊断 ICL 是否与基于梯度的学习具有功能等价性的新方法。我们的方法基于反向频率效应（IFE）- 一种错误驱动的学习者在训练罕见示例而不是常见示例时预计会显示更大更新的现象。我们的实验证明，在 ICL 中模拟结构启动效应后，LLMs 显示 IFE，且在更大模型中效应更强。我们得出结论，ICL 确实是一种基于梯度的学习，支持正向传递过程中隐式计算梯度的假设。我们的结果表明，人类和 LLMs 都利用基于梯度和错误驱动的处理机制。

Abstract

large language models (LLMs) have shown the emergent capability of in-context learning (ICL). One line of research has explained ICL as functionally performing gradient descent. In this paper, we introduce a new

large language models in-context learning gradient descent inverse frequency effect gradient-based learning

发现论文，激发创造

上下文学习与梯度下降再探讨

在这项工作中，我们重新审视了 ICL 和基于梯度下降（GD）的微调之间的比较，并研究了等效过程必须遵循的 ICL 的性质。我们强调了 ICL 和标准微调之间信息流动的主要差异，即 ICL 只能在每个点上依靠较低层次的信息，而微调依赖于更深层次的损失梯度。我们将这种差异称为层因果性，并表明层因果性的微调过程与 ICL 相媲美，在大多数相关指标上甚至更好。据我们所知，这是第一项明确讨论这种差异并提出最小改变解决方案的工作。

Nov, 2023

预训练的 Transformer 是否真的通过梯度下降来学习上下文？

在实际的自然语言环境中，对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异，发现二者在适应语言模型的输出分布上存在不一致的行为。

Oct, 2023

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

通过影响分析的上下文学习示范选择

通过使用影响函数分析训练样本的影响力，我们提出了一种名为 InfICL 的演示选择方法，用于选择对 In-Context Learning（ICL）有高影响力的训练样本，从而提高 ICL 的泛化性能，并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。

Feb, 2024

使用未确定演示测量上下文学习的感应偏差

通过构建自然语言信息的语境学习，研究了其归纳偏见的特征偏向，并尝试不同介入方式以对其进行干预，结果表明对于一些归纳偏见较强的特征，介入可能很难成功。

May, 2023

上下文信息提取的指导学习

提出了一种用于上下文信息提取的指南学习（GL）框架，通过学习生成和遵循指南，在学习阶段，自动从少量标注中综合一组指南，在推理阶段，检索有用的指南以提升上下文学习的性能。

Oct, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

关于现场学习的调查

本文概述了大型语言模型的新范式 —— 上下文学习，并探讨了训练策略和演示设计策略等高级技术，以及上下文学习所面临的挑战和未来方向。

Dec, 2022

从数据生成的角度探究应境学习的机制

通过数据生成的视角重新解释最近的努力，并展示了流行技术解决方案的潜在更广泛的用途，接近了一个系统的角度。对于概念定义，我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究，并突显了在数据生成视角下它们之间的统一性，为未来研究结合不同研究线路的优势建立了技术基础。

Feb, 2024

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023