May, 2024

自回归训练的变压器中的 Mesa - 优化:出现和能力

TL;DR最近的研究表明,自回归训练的 Transformer 学习了一个内在的优化器,通过正向传播来优化一个内部目标函数,我们探索了一个通过梯度流进行自回归训练的一层线性因果自注意模型的非凸动力学,以填补该领域的知识空白,并验证了该模型能够实现内在学习能力和优化器假设。