Apr, 2023

上下文学习与权重移动对 softmax 回归的紧密性

TL;DR本文针对 Transformer 注意机制进行研究,基于 softmax 回归建模,研究了单个自注意力层诱导数据转换的上限,并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务,发现梯度下降和 Transformers 所学的模型具有很大的相似性。