Feb, 2012

离散与连续状态 MDP 的符号动态规划

TL;DR本文介绍了符号动态规划(SDP)技术的扩展,提供了一种能够处理离散和连续状态的马尔可夫决策过程(DC-MDP)的最优解决方案,在 XADD 中引入约束基剪枝以提高效率。SDP 与 XADD 用于声明性问题的自动规划,从而实现在 DC-MDP 的线性和非线性函数中生成最优解决方案。