Dec, 2015

具有分位风险标准的风险受限强化学习

TL;DR本文研究利用概率风险约束的马尔可夫决策过程,通过计算梯度并设计算法实现了局部最优策略,解决了累积成本最小化的顺序决策问题,例子包括最优停止问题和在线营销应用。