Oct, 2011

关系马尔可夫决策过程的一阶决策图

TL;DR研究证明,使用新的紧凑表示 ——FODD,可以解决 RMDPs,通过 FODDs 操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。