Oct, 2011

关系马尔可夫决策过程的一阶决策图

TL;DR研究证明,使用新的紧凑表示——FODD,可以解决RMDPs,通过FODDs操作开发价值迭代算法,并证明该算法完全收敛且具有独立于领域大小或实例化的最佳策略。