Jan, 2023

学习符号表示以实现非马尔可夫行为的强化学习

TL;DR利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。