强化学习的反事实解释
本论文提出了一种新颖而简单的方法,将问题形式化为域转移问题,使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释,证明该方法在分析不同代理机器人的学习策略时表现最佳。
Feb, 2023
本文提出了一种基于生成式深度学习的新颖例子法方法,生成针对深度强化学习代理在视觉环境中操作(如 Atari)的反事实状态解释,探究这种解释的有效性,并对非专家参与者进行了测试比较。结果表明,与最近邻基线或根本没有解释相比,反事实状态解释对于帮助非专家参与者识别出有缺陷的强化学习代理具有足够的真实性。
Jan, 2021
通过 Experiential Explanations 生成局部反事实解释来帮助解释强化学习代理的决策,利用影响预测模型来恢复失去的关于策略如何反映环境的情境信息,并在人类评估研究中实现了更高的正确预测率和更高的解释实用性。
Oct, 2022
机器学习模型日益广泛应用,因此解释其预测和行为变得越来越重要。本文综述了针对多种不同机器学习模型高效计算对抗性解释的模型特定方法,并提出了文献中尚未考虑的模型方法。
Nov, 2019
本文提出 RACCER,这是第一个针对 RL 行为生成对抗性解释的 RL 特定方法,我们使用 RL 特定的对抗性属性,并使用启发式树搜索算法来查找最合适的对抗性解释,并进行了用户研究以证明对抗性解释可以帮助用户更好地理解 RL 代理的行为。
Mar, 2023
该论文提出一种新颖的反事实解释框架,以解释黑盒 DRL 的决策,并在自动驾驶系统和 Atari Pong 游戏领域进行了多项实验。分析表明,所提出的框架为深层 DRL 的各种决策生成了可行且有意义的解释。
May, 2023
通过使用显著特征解释和假设性解释来更加分析性地对待人工智能建议,可以降低对人工智能的过度依赖,提高医疗决策过程中的性能和一致性,尤其是在确保人工智能提供正确输出的情况下。
Aug, 2023