ICMLJun, 2012

雷电不会两次打中同一处:带有相互关联不确定性的稳健 MDPs

TL;DR基于参数不确定性的马尔可夫决策过程,引入 “雷不会击中同一个地方” 原则,对关联的不确定参数进行建模,给出概率保证,并设计出可行的算法以计算最优控制策略。