Jun, 2013

通过强化学习扩展鲁棒的马尔可夫决策过程

TL;DR本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。