Jul, 2024

鲁棒反事实解释中的一般模型变化

TL;DR随着算法决策对人类生活的影响越来越大,模型的可解释性已成为机器学习中的关键问题。对抗解释是可解释机器学习领域的重要方法,它不仅有助于用户理解机器学习模型为何做出特定决策,还可以帮助用户理解如何改变这些决策。本文提出了自然发生的模型改变的更一般概念——模型参数改变,并证明了相应的概率保证。此外,我们还考虑了一种更具体的问题——数据集扰动,并通过优化理论给出了相关的理论结果。