高水平机器人解释的奖励分解探究
本研究探讨将局部和全局解释方法相结合,通过激励分解和 HIGHLIGHTS 两种解释方式,帮助用户理解强化学习算法在决策制定时行为的策略,并通过两个用户研究证明两种方法的显著优势。
Oct, 2022
本文介绍了一种扩展奖励分解方法的因果学习框架,通过利用信息论度量的解释目标来鼓励因果因素的三个关键属性:因果充分性、稀疏性和正交性,并通过提取智能体状态、动作或奖励之间的因果关系深入理解其决策过程,从而为行动选择提供更有意义和有洞察力的解释。
Dec, 2023
本研究提出了一个框架,用于学习顺序决策任务的可理解模型,通过时间逻辑公式表征代理策略,并使用一个嵌入方法对代理足迹进行聚类,得出在不同的聚类中解释代理策略的逻辑公式,通过编写一个特征提取器和一个可视化工具,对在 StarCraft II 中的战斗场景进行了评估,实验结果表明,本框架可以将代理足迹分为不同的行为组,并为每个行为组提供一致、有意义且易于理解的策略描述。
Aug, 2022
通过提出奖励一致性和特征归因作为理解强化学习(RL)代理的中心目标,并提出了一种新的框架(RL 在 RL 中,简称 RL-in-RL)来解决梯度从动作到奖励的脱节问题,该文对 Atari 2600 游戏以及 Duckietown 进行了验证和评估,结果表明我们的方法能够保持奖励一致性并实现高质量的特征归因,同时一系列的分析实验证实了我们对行动匹配原则限制的假设。
Sep, 2023
本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制,从而解决了强化学习中因奖励稀疏和延迟所引起的问题,并在基准任务上获得了显著的改进。
Nov, 2021
研究团队提出使用奖励机器(RM)对协作多智能体强化学习中的团队任务进行编码,分解任务成子任务分配给个体智能体去完成,提出一种分布式完成子任务的算法,提供了一种自然去中心化学习的方法,并在实验中验证了所提出的方法非常有效。
Jul, 2020
为解决深度强化学习代理在任务转移中的过度拟合问题和对现实环境的适应性差的问题,提出一种基于奖励机器的任务表示方法,使用抽象状态图与任务奖励动态的相互作用诱导子任务,从而实现在不同任务间的知识共享和过程优化的目标。经实验测试表明,该方法在各个领域中提高了样本效率和少量训练次数下的转移性能。
Jul, 2023