Mar, 2024

走向非对抗性算法修复

TL;DR在高风险情况下,通过对敌对示例和反事实解释的形式定义,我们介绍了非敌对算法性回应,并阐明了为什么在获得不具备敌对特性的反事实解释方面是至关重要的。我们进一步研究了目标函数中不同组件(例如用于计量距离的机器学习模型或成本函数)如何决定结果是否可以被视为敌对示例。我们对常见数据集进行的实验证明,这些设计选择通常比使用回应或攻击算法更关键,以决定回应是否具有非敌对特性。此外,我们展示了选择强大和准确的机器学习模型会导致实践中所期望的更少敌对性回应。