BriefGPT.xyz
Dec, 2012
基于归纳的一阶MDP策略选择
Inductive Policy Selection for First-Order MDPs
HTML
PDF
Sung Wook Yoon, Alan Fern, Robert Givan
TL;DR
通过使用第一阶表示中的紧凑策略来选择大型马尔可夫决策过程的策略,我们通过训练数据来诱导第一阶策略,使用具有分类概念语言的决策列表的合集来表示我们的策略,我们发现此方法在概率领域中具有优越的效果,并讨论了此方法在关系加固学习问题上的应用。
Abstract
We select policies for large
markov decision processes
(MDPs) with compact
first-order representations
. We find policies that generalize well as the number of objects in the domain grows, potentially without boun
→