Jun, 2023

具备死亡避免和恢复功能的安全强化学习

TL;DR本文提出了一种较少对 RL 探索限制的安全 RL 框架方法,通过利用预训练的安全批判和安全恢复策略来构建一个划定安全状态的边界,并采用行为校正机制确保代理只采取安全动作,该方法在连续控制任务中表现出更好的任务性能和更少的安全违规。