Sep, 2023

利用奖励一致性进行强化学习中可解释特征发现

TL;DR通过提出奖励一致性和特征归因作为理解强化学习(RL)代理的中心目标,并提出了一种新的框架(RL在RL中,简称RL-in-RL)来解决梯度从动作到奖励的脱节问题,该文对Atari 2600游戏以及Duckietown进行了验证和评估,结果表明我们的方法能够保持奖励一致性并实现高质量的特征归因,同时一系列的分析实验证实了我们对行动匹配原则限制的假设。