Sep, 2016

马尔可夫决策过程中最快的变化检测方法来实现最优控制

TL;DR提出一种基于最快变化检测的非稳态马尔科夫决策过程(MDP)最优控制方法,在奖励检测折衷的基础上采用两阈值切换策略来优化长期奖励表现,实验结果表明,该策略在贝叶斯和非贝叶斯情况下均优于现有的最优控制方法。