Jun, 2023

Transformers 学会使用预条件的梯度下降进行上下文学习

TL;DR通过线性变压器在随机线性回归实例中的全局最小值,我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代,并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。