注意力机制中的边缘最大化
通过对 softmax 和线性注意机制进行全面的比较分析,我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。
Oct, 2023
提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制,它不仅包括 softmax 和稀疏 max 作为特例,还可以融合现代结构惩罚,可以应用于神经网络中,在文本蕴含、机器翻译和句子摘要等任务中表现良好,提高了可解释性并保持性能优越。
May, 2017
本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。
May, 2020
本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题,并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明,与现有的 MLP 或线性 heuads 相比,自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。
May, 2022
关注模型有三种不同的潜在变量边际可能性(LVML):软关注、硬关注和软关注损失。我们观察到使用这些范例学到的模型具有独特的特征,并且提出了一种简单的混合方法,结合了不同损失函数的优点。
Jul, 2023
通过对自注意力机制进行梯度下降的隐式偏差研究,我们在二进制分类中的固定线性解码器上训练自注意力层,证明了全局收敛并量化了关注图的稀疏化速率,同时分析了自适应步长规则对自注意力收敛速度的加速效果,从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。
Feb, 2024
论文研究了 Transformer 网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。
Nov, 2022