Feb, 2012

一种基于增量采样的随机最优控制算法

TL;DR本文提出了一种名为增量马尔可夫决策过程(iMDP)的算法,该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展,用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略,该算法通过状态空间的随机采样生成原问题的有限离散化序列,并且在计算过程中,能够以随时随地的方式更新控制策略。