Nov, 2022
深度强化学习中的嘈杂符号抽象:以奖励机器为案例研究
Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines
Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen, Rodrigo Toro Icarte...
TL;DR本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。