Sep, 2023

安全强化学习中的迭代可达性估计

TL;DR确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架,用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性,通过最小化累积折扣违规行为来产生最安全的行为,并基于可达性估计来优化我们提出的框架。我们在多个安全强化学习环境上评估了该方法,并与当前最先进的基准方法进行了比较,结果显示了在提高奖励性能和安全性方面的优势。