Feb, 2024

自注意力的隐性偏见和快速收敛速率

TL;DR通过对自注意力机制进行梯度下降的隐式偏差研究,我们在二进制分类中的固定线性解码器上训练自注意力层,证明了全局收敛并量化了关注图的稀疏化速率,同时分析了自适应步长规则对自注意力收敛速度的加速效果,从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。