Oct, 2023

Transformer 中的黄金时刻:多步任务揭示的 Softmax 引发的优化问题

TL;DR该研究研究了 transformers 在面对多步决策任务时对损失的快速、逐步改进。我们发现 transformers 在学习中间任务上存在困难,而 CNN 在我们研究的任务上没有此问题。当 transformers 学习中间任务时,它们在经过数百个 epochs 的训练和验证损失饱和之后会突然迅速学会预先无法理解的任务。我们将这些快速改进称为 Eureka 时刻,因为 transformers 似乎突然学会了以前难以理解的任务。与 Grokking 不同,对于 Eureka 时刻,验证和训练损失在迅速改进之前会饱和。我们将问题追溯到 transformers 的自注意力模块中的 Softmax 函数,并展示了缓解问题的方法。这些修复改善了训练速度。改进的模型仅需完成训练步骤的 20% 就能达到基线模型的 95%,同时更有可能学会中间任务,提高最终准确度并对超参数更稳健。