Jul, 2024

使用Petri网作为强化学习任务的集成约束机制

TL;DR在真实世界的领域,如生产工厂、自动驾驶车辆或交通基础设施中使用强化学习 (RL) 控制代理时,算法的不可信通常是一个问题,部分原因是模型本身的可验证性不足。为了促进 RL 模型的整合并增强人工智能的可信度,我们提出了一种使用 Petri 网 (PNs) 的方法,相比传统的 RL 方法,具有三个主要优势:首先,代理现在可以用一个合并的状态来建模,包括来自给定 PNs 的外部环境观测和代理特定状态信息;其次,我们可以通过内在的 PN 模型对状态相关动作进行约束;最后,我们可以通过模型检验等技术验证 PN 属性,进一步增加可信度。我们在典型的四路交叉口红绿灯控制设置上测试了我们的方法,并呈现了结果,超过了基于周期的基准。