Jan, 2023
学习符号表示以实现非马尔可夫行为的强化学习
Learning Symbolic Representations for Reinforcement Learning of Non-Markovian Behavior
Phillip J.K. Christoffersen, Andrew C. Li, Rodrigo Toro Icarte, Sheila A. McIlraith
TL;DR利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。