BriefGPT.xyz
Ask
alpha
关键词
non-markovian reward function
搜索结果 - 1
学习符号表示以实现非马尔可夫行为的强化学习
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非 Markov 领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
PDF
a year ago
Prev
Next