安全强化学习中的加速原始-对偶策略优化

Feb, 2018

Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning

Qingkai Liang, Fanyu Que, Eytan Modiano

TL;DR本文提出了一种用于受限Markov决策过程CMDPs的策略搜索方法APDO，并在模拟机器人运动任务上实验，结果表明APDO比CMDPs的现有方法具有更好的采样效率和更快的收敛速度。

Abstract

constrained markov decision process (CMDP) is a natural framework for reinforcement learning tasks with safety constraints, where agents l