Jul, 2023

梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者

TL;DR使用线性自注意力的一层 Transformer 在合成的线性回归数据上进行预训练,表明通过最小化预训练损失可以实现最小二乘线性回归目标的梯度下降的单步操作。