Sep, 2011

使用混合状态和动作变量解决分解的马尔可夫决策过程

TL;DR本文介绍了一种可对连续和离散变量的大决策问题进行紧凑表示的混合分解 Markov 决策过程(MDP)模型和一种新的混合近似线性规划(HALP)框架,HALP 的核心思想是通过一组基函数的线性组合来近似最优价值函数,并通过线性规划来优化其权重, 并证明其在多种混合优化问题中的可扩展潜力。