Oct, 2023

上下文收敛的 Transformer 模型

TL;DR通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。