使用深度强化学习学习序列反事实解释的公正策略
该论文提出一种新颖的反事实解释框架,以解释黑盒 DRL 的决策,并在自动驾驶系统和 Atari Pong 游戏领域进行了多项实验。分析表明,所提出的框架为深层 DRL 的各种决策生成了可行且有意义的解释。
May, 2023
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用 “假设” 结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
本文提出了一种基于生成式深度学习的新颖例子法方法,生成针对深度强化学习代理在视觉环境中操作(如 Atari)的反事实状态解释,探究这种解释的有效性,并对非专家参与者进行了测试比较。结果表明,与最近邻基线或根本没有解释相比,反事实状态解释对于帮助非专家参与者识别出有缺陷的强化学习代理具有足够的真实性。
Jan, 2021
本论文提出了一种新颖而简单的方法,将问题形式化为域转移问题,使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释,证明该方法在分析不同代理机器人的学习策略时表现最佳。
Feb, 2023
该研究提出一种数据效率的强化学习算法,利用结构因果模型来进行状态动态建模,从而实现反事实推理以及避免因数据不足带来的偏见问题。该算法对于少样本数据情况下的个体级政策学习有较好效果。
Dec, 2020
深度强化学习在复杂控制任务中显示出了极大的潜力,然而学习策略的不可解释性限制了其在安全关键应用(如自动驾驶系统)中的应用。为了解决这些问题,本文提出了一种使用显著性地图识别代理过去观测状态序列中影响力最大的输入像素,并将该地图馈送到深度生成模型中的方法,从而实现在显著区域进行约束修改的可信 Counterfactual 示例的生成。通过多个领域的实验结果表明,该方法能够在广泛的环境和深度强化学习代理中生成更加信息丰富和可信的 Counterfactual 示例。
Apr, 2024
通过算法补偿实施的反事实推演已成为使人工智能系统具有可解释性的强大工具,本文提出了一种名为 LocalFACE 的模型不可知技术,通过局部获取的信息在每个算法补偿步骤中构建可行且可操作的反事实解释。
Sep, 2023