Feb, 2024

自注意力网络当 QK 特征向量集中时的局部化

TL;DR自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃,它们似乎互相矛盾,但通过特征化查询 - 键参数矩阵的特征谱,我们揭示出小特征谱方差会防止秩和熵的崩溃,从而提高模型的表达能力和可训练性。