可视化及理解雅达利智能体
本文提出了使用区域感知注意力机制的深度强化学习模型,其能够利用注意力模块学习输入域中的重要区域。在推理过程中,通过反向传播梯度可视化决策最为重要的区域。该模型不仅提高了模型的可解释性,而且也带来了性能的改进。在 Atari 2600 游戏测试中,取得了良好的实验结果。
Dec, 2018
本文提出了一种新方法,通过添加自由午餐显著性(FLS)的注意力模块将其应用于深度学习代理在 Atari 环境中进行的训练,使网络产生注重分布。通过实验,我们发现网络的性能与基线类似,并且可以作为深度强化学习代理的可替代品。
Aug, 2019
该研究使用反事实推理来测试从显著性图中产生的假设并评估其与强化学习环境语义相对应的程度,以 Atari 游戏作为常见的深度强化学习基准来评估三种不同类型的显著性图,并发现显著性图最好视为一种探索性工具而非解释性工具。
Dec, 2019
本文介绍了一种使用卷积神经网络和增强学习从高维感知输入中直接学习控制策略的深度学习模型,并将其应用于七个 Atari 2600 游戏中,发现在 6 个游戏上优于以往的方法,在其中三个游戏中超过了人类专家。
Dec, 2013
本研究通过用户研究,探究关于解释对非专家理解强化学习代理的影响,研究了视觉化 saliency 和最近的解释类型奖励分解条,并设计了实验以比较参与者对于简单实时战略游戏中 RL 代理的心理模型。结果表明,需要同时结合 saliency 和奖励条才能显著提高心理模型得分。
Mar, 2019
本研究提出了 SARFA,一种基于深度增强学习的视觉化方法,生成更加专业和相关的显著图,相比现有方法更容易解释。在棋盘游戏(如国际象棋和围棋)和 Atari 游戏(如打砖块、乒乓球和太空侵略者)的比较中,SARFA 产生的显著图比现有方法更容易解释。
Dec, 2019
本研究结合全局与局部解释方法,通过用户研究评估其共同和单独的贡献,其中将模拟代理程序中的重要状态转换提取为策略概述,并为用户提供注重的信息,结果表明,如果概要包括重要状态的话,人们理解代理程序的能力显著提高。尽管加入显著性地图在大多数情况下并没有显著提高性能,但确实有一些证据表明显著性地图可以帮助用户更好地理解代理程序在决策过程中依赖的信息,为未来的工作提供了建议。
May, 2020
在本文中,我们提出了一个算法,它能够解决深度强化学习在 Atari 游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在 40 个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
本文利用强化学习和软注意机制结合的 Deep Q-Network 模型教导代理人玩游戏时关注视觉输入的最相关部分,并通过在多个 Atari 2600 游戏上的评估,证明软注意力模型可以比 Itti-Kochs 显著地预测焦点位置。
Dec, 2016