Apr, 2023

POMDPs 和可解释的代理的端到端策略梯度方法

TL;DR一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。