Feb, 2018

安全强化学习中的加速原始-对偶策略优化

TL;DR本文提出了一种用于受限Markov决策过程CMDPs的策略搜索方法APDO,并在模拟机器人运动任务上实验,结果表明APDO比CMDPs的现有方法具有更好的采样效率和更快的收敛速度。