Jan, 2013

SPUDD:使用决策图的随机计划

TL;DR本研究提出了一种基于代数决策图来表示价值函数和策略的Markov决策过程的值迭代算法,并将其应用于波西网络和ADDs表示的大规模MDPs中,相较于树形结构表示方式大幅降低了节点数量。