为什么 GPT 能够学会上下文？语言模型秘密地作为元优化器执行梯度下降

Dec, 2022

为什么 GPT 能够学会上下文？语言模型秘密地作为元优化器执行梯度下降

Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers

Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui...

TL;DR本文将语言模型视为元优化器，在理论上和实验上探究了上下文内学习（ICL）的工作机理，通过解释 Transformer 注意力的梯度下降优化以及设计基于动量的注意力，揭示了 ICL 的内在特性和更好的应用前景。

Abstract

Large pretrained language models have shown surprising in-context learning (ICL) ability. With a few demonstration input-label pairs, they can predict the label for an unseen input without additional parameter up

in-context learning language models meta-optimizers transformer attention momentum-based attention

发现论文，激发创造

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

预训练的 Transformer 是否真的通过梯度下降来学习上下文？

在实际的自然语言环境中，对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异，发现二者在适应语言模型的输出分布上存在不一致的行为。

Oct, 2023

基于 Transformer 的上下文学习与对比学习模式等效

我们通过内在对比学习的角度解释了预训练大型语言模型的推理过程，分析了梯度下降和自注意机制之间的关系，并提出了对比学习模式的改进，以进一步修改自注意层。

Oct, 2023

训练的 Transformer 学习上下文中的线性模型

研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练，实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力，且在多种分布转换下具有鲁棒性。

Jun, 2023

面向上下文学习的何以及如何学习？贝叶斯模型平均、参数化和泛化

本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究，初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化，同时建立 ICL 遗憾、近似和泛化误差的界限，从而加深了我们对现代语言模型的关键方面的认识。

May, 2023

上下文学习与梯度下降再探讨

在这项工作中，我们重新审视了 ICL 和基于梯度下降（GD）的微调之间的比较，并研究了等效过程必须遵循的 ICL 的性质。我们强调了 ICL 和标准微调之间信息流动的主要差异，即 ICL 只能在每个点上依靠较低层次的信息，而微调依赖于更深层次的损失梯度。我们将这种差异称为层因果性，并表明层因果性的微调过程与 ICL 相媲美，在大多数相关指标上甚至更好。据我们所知，这是第一项明确讨论这种差异并提出最小改变解决方案的工作。

Nov, 2023

上下文学习转模型权重的精确转换

在这篇论文中，我们展示了一个算法（ICLCA），通过在线性变换网络中加入偏置项，可以使得上下文学习（ICL）得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换，而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法，以实现 ICL 令牌的便宜近似转换，即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。

Jun, 2024

我们是否可以通过上下文学习来编辑事实知识？

通过在不更新参数的情况下展示上下文，利用 in-context learning (editing) 的策略可以达到和梯度下降方法相当的 GPT 大型语言模型知识编辑效果。

May, 2023

论文标题：上下文学习和微调 GPT 用于论证挖掘

大型语言模型 (LLMs) 在自然语言处理和深度学习领域已变得无处不在。我们介绍了一种基于 In-Context Learning (ICL) 的策略，结合 kNN-based examples selection 和 majority vote ensembling 来解决 Argument Type Classification (ATC) 的任务。在无需训练的 ICL 设置中，GPT-4 可以仅从少量示例中获取相关信息，并在 ATC 上达到很高的分类准确率。在引入文本形式的良构结构特征的 fine-tuning 策略中，GPT-3.5 在 ATC 上达到了最新的性能水平。总体而言，这些结果强调了 LLMs 在原始文本的离线和微调设置中理解全局论证流程的新能力。

Jun, 2024

语音语言模型中上下文学习的探索

在自然语言处理领域中，GPT-3 的开发以来，上下文学习（ICL）在利用大型语言模型（LLM）方面发挥了重要作用。尽管 ICL 在 NLP 领域取得了成功，但鲜有工作探索了 ICL 在语音处理中的可能性。本研究提出了第一个探索 ICL 与语音语言模型在无文本监督下的结合的方法。通过提出的热启动训练方法，语音语言模型能够在未知任务上进行 ICL，而当前的语音语言模型不具备这种能力。我们通过在语音分类任务上验证了语音语言模型进行 ICL 的可行性。

Oct, 2023