Nov, 2022

深度强化学习中的嘈杂符号抽象:以奖励机器为案例研究

TL;DR本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。