BriefGPT.xyz
Feb, 2018
安全强化学习中的加速原始-对偶策略优化
Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning
HTML
PDF
Qingkai Liang, Fanyu Que, Eytan Modiano
TL;DR
本文提出了一种用于受限Markov决策过程CMDPs的策略搜索方法APDO,并在模拟机器人运动任务上实验,结果表明APDO比CMDPs的现有方法具有更好的采样效率和更快的收敛速度。
Abstract
constrained markov decision process
(CMDP) is a natural framework for
reinforcement learning
tasks with
safety constraints
, where agents l
→