ICLRJan, 2024

带有可行性引导扩散模型的安全离线强化学习

TL;DR通过可行区域定义的安全约束,最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR(FeasIbility-guided Safe Offline RL)是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。