ICMLJun, 2024

通过机制可解释性为模型性能提供可证明的保证

TL;DR使用机制性可解释性推导和简明证明模型性能的形式保障,通过形式下界评估小型 Transformer 模型在 Max-of-k 任务上的准确率,并通过多种证明策略量化地展示了机制性理解与性能保障的紧密联系,最终确定了结构缺失噪声的叠加作为使用机制性可解释性生成简明证明的关键挑战。