ICMLJan, 2022

通过忠实度违规测试重新思考注意力模型可解释性

TL;DR本文发现注意力解释的一个关键限制:弱点在于识别特征影响的极性。为此,作者提出了一个行动诊断方法来量化解释权重与影响极性之间的一致性,并通过大量实验表明,大多数测试的解释方法都意外受到忠诚度违反问题的阻碍,特别是原始的关注力。