KDDJun, 2013

使用外部事件和可累计奖励解决关系型 MDPs 问题

TL;DR本文介绍了一种符号规划算法,该算法是面向以对象为中心、独立的外部事件和捕捉库存控制等问题的服务域的,该算法具有明确的关于外部事件的关系 MDP 的性能保证,在某些技术条件下,我们的规划算法提供了关于最优值函数的单调下界。为了支持这种算法,我们使用广义一阶决策图作为知识表示,提出了新颖的评估和约简技术。我们的规划算法使用一组焦点状态,这组状态作为一个训练集,简化和近似符号解,并且可以被视为执行规划的学习。一项初步的实验评估证明了这种方法的有效性。