Transformers 在存储信息的上下文和权重方面存在不同的泛化能力
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
研究了 Transformer-based 模型在 in-context few-shot learning 方面的行为和处理方式,发现训练数据的分布特性是这种行为的关键,特别是数据具有大量稀有类别和爆发性分布这两个属性时;而这些属性往往是自然数据所具有的。此外发现在特定训练数据下使用 Zipfian distribution 可以支持 Transformer-based 模型同时实现 in-context 和 in-weights learning。
Apr, 2022
通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现,研究了上下文学习的一些普遍限制,发现转换器模型更准确地模拟了最小二乘法的性能,并且对于轻微的分布移位更具有鲁棒性,但在严重分布移位的情况下,两个模型的上下文学习能力都会减弱。
May, 2023
Transformer 模型表现出上下文学习:基于输入序列中的示例,准确预测对新查询的响应。研究讨论了训练数据分布和架构方面哪些因素支持上下文学习和传统的查询 - 输出关系学习。研究还提出了在简化数据集上训练的最小关注网络模型,阐明了上下文学习受到诱导头突然出现的驱动。该研究建议,基于注意力的网络的明显转折是由于实现上下文学习所必需的特定多层操作链引起的。
Dec, 2023
本文通过多种线性和非线性函数类的实证观察,延伸了之前的研究,表明了 transformers 的理想学习者表现,并探究了其在 Bayesian 模型和多任务环境下的应用,还以傅里叶级数为例研究了其归纳偏差。
Jun, 2023
Transformer 的 in-context 学习能力受到 in-weight component 和 in-context component 的影响,其中好的 in-weights component 有利于 in-context component 的学习,从 representation learning 的角度揭示了改进 in-context 容量的新方法。
Sep, 2023
本研究基于实验方法,探讨了分类学习系统的归纳偏差对样本和规则泛化之间的权衡,并发现标准神经网络模型存在特征偏见和样本驱动等问题,对机器学习研究的系统泛化、公平性和数据增广等产生了影响。
Oct, 2021
该文提出一种新的模型训练方法,称为 in-context learning,可以使 transformer 模型通过给定的输入输出对,学习出新的输入对应的输出,而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning,发现该模型即使出现了数据分布的改变,也能够对复杂函数进行有效和快速的学习。
Aug, 2022