Aug, 2017

通过屏蔽技术实现安全强化学习

TL;DR该论文介绍了一种基于时间逻辑表达的安全性要求,用反应系统来指导强化学习算法的政策优化过程,保证学习和执行阶段的安全性。实验表明该方法在多种场景下具有通用性。