ICMLJul, 2021

基于约束惩罚的 Q-learning 算法用于安全离线强化学习

TL;DR本研究探讨了在仅使用离线数据的情况下学习最大化长期收益的策略,同时满足安全性约束的安全离线强化学习问题,提出了基于约束惩罚的 Q 学习算法来解决该问题,并且在多个基准任务中进行了实验验证,表明该算法在数据效率和性能方面都优于其他基线算法。