Oct, 2020

学习恢复区的安全强化学习(Recovery RL)

TL;DR本文提出了一种名为 Recovery RL 的算法,它通过利用离线数据来学习约束违规区域并将任务性能和约束满足的目标分别交给两个策略来平衡任务收益与安全性,并在六个仿真领域和一个物理机器人上进行了试验,证明 Recovery RL 在这些领域内比先前的安全 RL 方法具有更高的效率和表现。