Apr, 2023

具有未知时间约束的安全强化学习策略联合学习

TL;DR提出了一种结合逻辑约束强化学习算法和进化算法的框架,用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略,并且该框架以理论保证为支撑,成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略,以及证明了我们的方法的实践效果。