BriefGPT.xyz
Nov, 2022
深度强化学习中的嘈杂符号抽象:以奖励机器为案例研究
Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines
HTML
PDF
Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen, Rodrigo Toro Icarte...
TL;DR
本篇文章提出了一种特殊的POMDP优化问题,研究当使用Reward Machines作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
Abstract
Natural and formal languages provide an effective mechanism for humans to specify instructions and reward functions. We investigate how to generate policies via
rl
when reward functions are specified in a
symbolic langu
→