变换器在语境中能学到什么？简单函数类的案例研究

Aug, 2022

变换器在语境中能学到什么？简单函数类的案例研究

What Can Transformers Learn In-Context? A Case Study of Simple Function Classes

Shivam Garg, Dimitris Tsipras, Percy Liang, Gregory Valiant

TL;DR该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Abstract

in-context learning refers to the ability of a model to condition on a prompt sequence consisting of in-context examples (input-output pairs corresponding to some task) along with a new query input, and generate the corresponding output. Crucially, →

in-context learning model training linear functions transformers empirical study

发现论文，激发创造

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习

为了理解上下文学习现象，最近的研究采用了一个简化的实验框架，并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确，而这些能力在基于注意力模型中是否有限制也不清楚。此外，还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型（LLMs）。在本研究中，我们通过以下方式来一步步回答这些问题：（a）在一个包含各种布尔函数类的测试集上，我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配，但在更复杂的任务上性能下降。此外，我们发现某些无注意力模型在一系列任务上与 Transformer 表现（几乎）一致；（b）当提供一个教学序列，即一组通过示例唯一标识一个函数类的示例时，我们发现 Transformer 学习起来更加高效。有趣的是，我们的结果表明，Transformer 可以学习实现两个不同的算法来解决一个任务，并且可以根据上下文示例的顺序自适应地选择更加高效的算法；（c）最后，我们展示了 LLMs（如 LLaMA-2、GPT-4）可以与最近邻基线在保证不在其训练集中的预测任务上竞争。

Oct, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

基于 Transformer 的上下文强化学习中学习时间差分方法

此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习（TD learning）以及其他许多策略评估算法，通过使用多任务 TD 算法进行训练，并进行了理论分析。

May, 2024

上下文学习的可学习性

本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性，发现在语言模型的参数保持不变的情况下，通过将下游任务的训练示例包含在其输入中，可以调整模型以执行各种下游自然语言处理任务，预训练分布是潜在任务的混合时，这些任务可以通过上下文学习有效地学习，这种学习更多地是关于识别任务而不是学习任务，并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。

Mar, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

Transformer 在上下文中如何学习超越简单函数？学习表示的案例研究

大型语言模型在转换器架构的基础上展现了卓越的上下文学习能力，本研究旨在深入了解更复杂的情境中的上下文学习，并通过研究表示学习来探索其机制和性能。

Oct, 2023

Transformer 模型能否在上下文中学习顺序功能类别？

我们的研究扩展了前文所提到的上下文学习在转换模型中的应用，通过探索转换模型是否能够从序列、非文本函数类数据分布中学习。我们引入了一种新颖的滑动窗口序列函数类，并使用了具有 GPT-2 架构的规模较小的转换模型进行实验。我们的分析表明，这些模型确实可以在训练非文本序列函数类时利用上下文学习。此外，我们通过随机的 y 标签序列实验发现，即使标签关联被混淆，转换模型仍保留一定的上下文学习能力。我们提供了证据表明，转换模型可以理解并推理出函数类中所编码的序列性，从而在我们提出的任务中有效学习。我们的结果还显示，性能随着标签的随机性增加而下降，尽管不及预期的程度，暗示了所学习的序列性对标签噪声具有潜在的鲁棒性。未来的研究可以探讨转换模型中的解释性头部和任务向量与上下文学习中的序列性之间的关系。我们的研究为进一步研究转换模型如何处理和感知序列数据奠定了基础。

Dec, 2023

上下文学习作为隐式贝叶斯推断的解释

本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Nov, 2021