Feb, 2019

基于价值限制的无模型连续控制

TL;DR提出了一种基于 Lagrangian relaxation 的约束强化学习方法,通过同时优化任务奖励和某些辅助成本来确保任务成功,展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上,该方法的有效性。