Jan, 2013

SPUDD:使用决策图的随机计划

TL;DR本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。