ICMLMay, 2022

透过凸优化解释注意力:关于视觉 Transformer 的分析和解读

TL;DR本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题,并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明,与现有的 MLP 或线性 heuads 相比,自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。