Transformers 在存储信息的上下文和权重方面存在不同的泛化能力

Oct, 2022

Transformers 在存储信息的上下文和权重方面存在不同的泛化能力

Transformers generalize differently from information stored in context vs in weights

Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran, Andrew K. Lampinen...

TL;DR本文研究 Transformer 模型的归纳偏差，发现预训练模型在处理稀少类似规则的数据时更倾向于基于规则的归纳，而在无监督学习上表现出基于例子的归纳偏差。

Abstract

transformer models can use two fundamentally different kinds of information: information stored in weights during training, and information provided ``in-context'' at inference time. In this work, we show that transformers exhibit different →

transformer models inductive biases rule-based generalization exemplar-based generalization pre-training

发现论文，激发创造

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

数据分布特征驱动变压器模型中的上下文学习

研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式，发现训练数据的分布特性是这种行为的关键，特别是数据具有大量稀有类别和爆发性分布这两个属性时；而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。

Apr, 2022

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

一个基于机制的数据依赖和突发学习的在情境分类任务的基础

Transformer 模型表现出上下文学习：基于输入序列中的示例，准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型，阐明了上下文学习受到诱导头突然出现的驱动。该研究建议，基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。

Dec, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

表述对于背景学习的影响：对合成任务的探索

Transformer 的 in-context 学习能力受到 in-weight component 和 in-context component 的影响，其中好的 in-weights component 有利于 in-context component 的学习，从 representation learning 的角度揭示了改进 in-context 容量的新方法。

Sep, 2023

区分基于规则和范例的一般化学习系统

本研究基于实验方法，探讨了分类学习系统的归纳偏差对样本和规则泛化之间的权衡，并发现标准神经网络模型存在特征偏见和样本驱动等问题，对机器学习研究的系统泛化、公平性和数据增广等产生了影响。

Oct, 2021

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023