Transformer 中的黄金时刻：多步任务揭示的 Softmax 引发的优化问题

Oct, 2023

Transformer 中的黄金时刻：多步任务揭示的 Softmax 引发的优化问题

Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems

David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer, Thomas Brox

TL;DR该研究研究了 transformers 在面对多步决策任务时对损失的快速、逐步改进。我们发现 transformers 在学习中间任务上存在困难，而 CNN 在我们研究的任务上没有此问题。当 transformers 学习中间任务时，它们在经过数百个 epochs 的训练和验证损失饱和之后会突然迅速学会预先无法理解的任务。我们将这些快速改进称为 Eureka 时刻，因为 transformers 似乎突然学会了以前难以理解的任务。与 Grokking 不同，对于 Eureka 时刻，验证和训练损失在迅速改进之前会饱和。我们将问题追溯到 transformers 的自注意力模块中的 Softmax 函数，并展示了缓解问题的方法。这些修复改善了训练速度。改进的模型仅需完成训练步骤的 20% 就能达到基线模型的 95%，同时更有可能学会中间任务，提高最终准确度并对超参数更稳健。

Abstract

In this work, we study rapid, step-wise improvements of the loss in transformers when being confronted with multi-step decision tasks. We found that transformers struggle to learn the intermediate tasks, whereas

transformers cnns rapid improvements eureka-moments softmax function

发现论文，激发创造

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

使用任务级别 Mixture-of-Experts 挖掘和理解跨任务技能

本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型，该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配，其表现优于传统的多任务学习模型，同时也发现保留人类任务分类方法对提高模型性能有一定帮助。

May, 2022

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

早期和晚期隐性偏见的二分法可以显然地引发 Grokking

该研究探讨在理论环境中学习算术任务中的 “理解” 现象，并表明它可以通过早期和晚期的内隐偏差引发。具体而言，当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时，我们证明训练过程会长时间陷入与核心预测器对应的解决方案，然后发生极端转变，达到最小范数 / 最大边界预测器，从而导致测试准确性的巨大变化。

Nov, 2023

基于 Transformer 的上下文学习：Softmax 注意力适应函数的 Lipschitz 特性

在隐含背景数据的推断过程中，探索了 softmax 注意力机制在回归任务中的作用，发现注意力单元通过学习窗口，可以适应不同的预训练任务，并随着 Lipschitz 性质降低和标签噪声增加而扩大，同时对于低秩线性问题，注意力单元可以在推断之前进行适当的投影。此外，该适应性依赖于 softmax 激活函数，不同于传统线性激活函数的理论分析。

Feb, 2024

从惰性训练动态到丰富训练动态的领悟

神经网络在从懒散训练动力学过渡到强大的特征学习规则时，产生 ' 领悟现象 '，通过研究多项式回归问题上的两层神经网络，我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。

Oct, 2023

揭示 Transformer 中的 Mesa 优化算法

通过逆向工程一系列经过训练的自回归 Transformer，我们发现其通过梯度驱动的学习中的 mesa-optimization 算法也可被改用于解决少样本监督任务，这表明 mesa-optimization 可能是大型语言模型在上下文学习能力方面的基础。此外，我们提出了一种新的自注意层 ——mesa-layer，它能显式、高效地解决上下文中给定的优化问题，并在合成和初步语言建模实验中展现出更好的性能，从而加强了 mesa-optimization 隐藏在训练的 Transformer 网络权重中的重要性的假设。

Sep, 2023

DyTox：使用动态令牌扩展的 Transformers 进行持续学习

提出了一种基于 Transformer 架构和共享编码器 / 解码器框架的策略，采用动态扩展特殊标记以使解码器网络适用于任务分布，从而在大数据集上取得优异结果，且不需要超参数调整。

Nov, 2021

发挥 Transformer 潜力的策略：eRisk 2023 上的 UNSL

通过使用 Transformers，在风险检测与早期发现的任务中，提出了多种基于相似性嵌入向量和提示技术的解决方案，并在抑郁症、病态赌博等领域取得了良好的性能。

Oct, 2023

元学习变形金刚进行上下文通用学习

本文研究了通过 Meta-learning 或者说 Learning-to-learn 的方式来训练黑盒子模型成为通用的上下文学习算法，同时发现相比于标准模型，黑盒子模型训练时的瓶颈不是参数数量而是可以访问的状态大小。此外，本文提出了一些实际操作手段，如改变训练集分布来改善通用学习算法的 Meta-training 和 Meta-generalization。

Dec, 2022