Jul, 2012

一阶 MDP 的近似线性规划

TL;DR本文提出了一种基于线性规划的解决方法,通过将价值函数在一组一阶基函数的线性表示中计算适当的权值,解决了一阶马尔科夫决策过程中与特定领域实例无关的解决方案。并将该解决方法应用于电梯调度方面,具有丰富的特征空间和多标准加性奖励,证明了其优于许多直观、启发式指导政策。