Jun, 2023

各州受限制的政策优化

TL;DRState-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。