本文研究了强化学习中的可解释性问题,提出了一种基于因果关系的解释机制并通过模拟实验验证了其在解释政策方面的优势。
Oct, 2022
提出了一种基于状态转移模型的强化学习局部可解释风险的方法,并通过实验证明了其有效性。
May, 2021
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本研究结合全局与局部解释方法,通过用户研究评估其共同和单独的贡献,其中将模拟代理程序中的重要状态转换提取为策略概述,并为用户提供注重的信息,结果表明,如果概要包括重要状态的话,人们理解代理程序的能力显著提高。尽管加入显著性地图在大多数情况下并没有显著提高性能,但确实有一些证据表明显著性地图可以帮助用户更好地理解代理程序在决策过程中依赖的信息,为未来的工作提供了建议。
May, 2020
本文介绍了一种扩展奖励分解方法的因果学习框架,通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性:因果充分性、稀疏性和正交性,并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程,从而为行动选择提供更有意义和有洞察力的解释。
Dec, 2023
利用聚类方法探索任务结构,缩小任务特定信息的搜索空间,提高元强化学习的采样效率和策略适应能力。
Feb, 2023
本文研究了强化学习中的探索开发平衡问题,并提出两种基于邻近状态的无模型探索算法,其中一种方法(${ho}$-explore)在离散环境中相比于基准算法 Double DQN,在评估奖励回报方面提高了 49%。
Dec, 2022
本文提出了一种方法,使强化学习代理能够解释其行为,以期实现机器学习模型的透明化。通过将状态和行动转换为易于人类理解的描述,并使用一种可生成解释的格式,进行了计算,结果表明人类用户倾向于关注政策而非单个操作。
Jul, 2018
通过使用形式化的马尔科夫决策过程抽象和转换,以自动产生解释的方式,解释强化学习智能体的新兴行为。
Sep, 2022
本文提出了一种名为深度元强化学习的方法,该方法使用递归网络,在一个强化学习算法上进行训练,但其递归动态实现第二个、完全分离的强化学习过程,通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。
Nov, 2016