KDDNov, 2023

使用深度强化学习学习序列反事实解释的公正策略

TL;DR在可解释人工智能领域中,使用顺序反事实示例来改变经过训练的分类器的决策是常用的方法。本文针对现有方法的不足提出了使用分类器的输出概率来创建更具信息性的奖励以减轻潜在偏见等问题。