上下文学习与梯度下降再探讨

Nov, 2023

In-context Learning and Gradient Descent Revisited

Tomer Bar Nathan, Gilad Deutch, Nadav Magar, Guy Dar

TL;DR在这项工作中，我们重新审视了 ICL 和基于梯度下降（GD）的微调之间的比较，并研究了等效过程必须遵循的 ICL 的性质。我们强调了 ICL 和标准微调之间信息流动的主要差异，即 ICL 只能在每个点上依靠较低层次的信息，而微调依赖于更深层次的损失梯度。我们将这种差异称为层因果性，并表明层因果性的微调过程与 ICL 相媲美，在大多数相关指标上甚至更好。据我们所知，这是第一项明确讨论这种差异并提出最小改变解决方案的工作。

Abstract

in-context learning (icl) has shown impressive results in few-shot learning tasks, yet its underlying mechanism is still not fully underst

in-context learning few-shot learning gradient descent icl finetuning

发现论文，激发创造

预训练的 Transformer 是否真的通过梯度下降来学习上下文？

在实际的自然语言环境中，对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异，发现二者在适应语言模型的输出分布上存在不一致的行为。

Oct, 2023

基于 Transformer 的上下文学习与对比学习模式等效

我们通过内在对比学习的角度解释了预训练大型语言模型的推理过程，分析了梯度下降和自注意机制之间的关系，并提出了对比学习模式的改进，以进一步修改自注意层。

Oct, 2023

为什么 GPT 能够学会上下文？语言模型秘密地作为元优化器执行梯度下降

本文将语言模型视为元优化器，在理论上和实验上探究了上下文内学习（ICL）的工作机理，通过解释 Transformer 注意力的梯度下降优化以及设计基于动量的注意力，揭示了 ICL 的内在特性和更好的应用前景。

Dec, 2022

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

从数据生成的角度探究应境学习的机制

通过数据生成的视角重新解释最近的努力，并展示了流行技术解决方案的潜在更广泛的用途，接近了一个系统的角度。对于概念定义，我们严格采用技能学习和技能识别的术语。我们还对不同解决方案的优点和缺点进行了全面研究，并突显了在数据生成视角下它们之间的统一性，为未来研究结合不同研究线路的优势建立了技术基础。

Feb, 2024

上下文学习是一种基于梯度的学习吗？来自结构引导中反向频率效应的证据

大型语言模型（LLMs）已显示出上下文学习（ICL）的新兴能力。研究对 ICL 的解释之一是将其功能性视为梯度下降。本文介绍了一种诊断 ICL 是否与基于梯度的学习具有功能等价性的新方法。我们的方法基于反向频率效应（IFE）- 一种错误驱动的学习者在训练罕见示例而不是常见示例时预计会显示更大更新的现象。我们的实验证明，在 ICL 中模拟结构启动效应后，LLMs 显示 IFE，且在更大模型中效应更强。我们得出结论，ICL 确实是一种基于梯度的学习，支持正向传递过程中隐式计算梯度的假设。我们的结果表明，人类和 LLMs 都利用基于梯度和错误驱动的处理机制。

Jun, 2024

上下文学习转模型权重的精确转换

在这篇论文中，我们展示了一个算法（ICLCA），通过在线性变换网络中加入偏置项，可以使得上下文学习（ICL）得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换，而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法，以实现 ICL 令牌的便宜近似转换，即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。

Jun, 2024

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

通用上下文学习基准测试

通过增加上下文和记忆状态的规模，以提高在上下文中学习和推广能力，与普通的上下文学习相比，泛化性上下文学习（GPICL）在广泛的任务范围内扩展学习视野，并从较低的零样本基线开始。

May, 2024

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023