强化学习中的反事实解释策略
该论文提出一种新颖的反事实解释框架,以解释黑盒 DRL 的决策,并在自动驾驶系统和 Atari Pong 游戏领域进行了多项实验。分析表明,所提出的框架为深层 DRL 的各种决策生成了可行且有意义的解释。
May, 2023
本论文提出了一种新颖而简单的方法,将问题形式化为域转移问题,使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释,证明该方法在分析不同代理机器人的学习策略时表现最佳。
Feb, 2023
在可解释人工智能领域中,使用顺序反事实示例来改变经过训练的分类器的决策是常用的方法。本文针对现有方法的不足提出了使用分类器的输出概率来创建更具信息性的奖励以减轻潜在偏见等问题。
Nov, 2023
本文旨在在战略环境下寻找最优的政策和对策解释,包括 NP 难的问题,非降性和子模性,用标准贪心算法获得近似保证。最后,我们表明通过将拟阵约束加入问题的制定中,我们可以提高对策解释的最优集合的多样性,并激励整个人口谱上的个体自我改进。
Feb, 2020
通过展示强化学习代理在更广泛的轨迹分布中的行为,我们的方法可以传达代理在分布转移下的表现,从而有助于代理的有效验证。在用户研究中,我们展示了我们的方法可以使用户在代理验证任务中的得分比基准方法高。
Jan, 2022
提出了一种名为 COViz 的本地解释方法,将代理选择的行为结果与对照行为结果进行可视化比较,并与奖励分解法进行了对比评估,结果显示两种方法的综合利用显著提高了参与者的性能。
Dec, 2023
本文提出了一种基于生成式深度学习的新颖例子法方法,生成针对深度强化学习代理在视觉环境中操作(如 Atari)的反事实状态解释,探究这种解释的有效性,并对非专家参与者进行了测试比较。结果表明,与最近邻基线或根本没有解释相比,反事实状态解释对于帮助非专家参与者识别出有缺陷的强化学习代理具有足够的真实性。
Jan, 2021
通过对专家行为的建模和学习,该论文提出了一种可解释的决策制定方法,使用 “假设” 结果的偏好来模拟专家的奖励函数,该方法将反事实推理集成到批量反向强化学习中,能够自然地适应历史记录依赖的环境,同时也满足现实世界决策制定的约束条件。
Jul, 2020
本研究提出 CausalCF,将因果推理与强化学习相结合,使得该模型在复杂任务上更加稳健,同时,实验表明 CausalCF 已经成为了第一个完整的能够将 Causal Curiosity 和 CoPhy 思想融入的因果强化学习解决方案。
Nov, 2022