Apr, 2024

SAFE-RL:针对深度强化学习策略的显著性感知因果解释器

TL;DR深度强化学习在复杂控制任务中显示出了极大的潜力,然而学习策略的不可解释性限制了其在安全关键应用(如自动驾驶系统)中的应用。为了解决这些问题,本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素,并将该地图馈送到深度生成模型中的方法,从而实现在显著区域进行约束修改的可信 Counterfactual 示例的生成。通过多个领域的实验结果表明,该方法能够在广泛的环境和深度强化学习代理中生成更加信息丰富和可信的 Counterfactual 示例。