May, 2024

注意机制不学习累加模型:重新思考变压器中特征重要性

TL;DR我们解决了将特征归属方法应用于主导自然语言处理等领域的转换器架构的关键挑战。我们形式上证明了一项令人担忧的不兼容性:转换器结构无法与常见的特征归因的代理模型对齐,从而削弱了这些传统解释方法的基础。为了解决这个差异,我们引入了 Softmax-Linked Additive Log-Odds Model(SLALOM),这是一种专门与转换器框架对齐的新型代理模型。与现有方法不同,SLALOM 证明了能够在合成和真实数据集上提供一系列忠实而深入的解释。通过展示从 SLALOM 计算得出的多样化的解释在不同任务上优于常见的代理解释,我们强调了需要针对特定任务的特征归属而不是一刀切的方法的重要性。