Feb, 2018

安全强化学习中的加速原始 - 对偶策略优化

TL;DR本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO,并在模拟机器人运动任务上实验,结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。