使用Petri网作为强化学习任务的集成约束机制

Jul, 2024

使用Petri网作为强化学习任务的集成约束机制

Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks

Timon Sachweh, Pierre Haritz, Thomas Liebig

TL;DR在真实世界的领域，如生产工厂、自动驾驶车辆或交通基础设施中使用强化学习 (RL) 控制代理时，算法的不可信通常是一个问题，部分原因是模型本身的可验证性不足。为了促进 RL 模型的整合并增强人工智能的可信度，我们提出了一种使用 Petri 网 (PNs) 的方法，相比传统的 RL 方法，具有三个主要优势：首先，代理现在可以用一个合并的状态来建模，包括来自给定 PNs 的外部环境观测和代理特定状态信息；其次，我们可以通过内在的 PN 模型对状态相关动作进行约束；最后，我们可以通过模型检验等技术验证 PN 属性，进一步增加可信度。我们在典型的四路交叉口红绿灯控制设置上测试了我们的方法，并呈现了结果，超过了基于周期的基准。

Abstract

The lack of trust in algorithms is usually an issue when using Reinforcement Learning (RL) agents for control in real-world domains such as production plants, autonomous vehicles, or traffic-related infrastructur

发现论文，激发创造

Trust-PCL: 一种用于连续控制的离线信任区域方法

提出一种基于离线数据的信任区域方法Trust-PCL，能够在强化学习中稳定策略优化算法，使用相对熵正则化器优化最大回报目标的最优策略和状态值满足一组多步路径一致性，提高了样本效率和解决方案质量。

Jul, 2017

混合自主车辆交通的模块化学习框架：Flow

本文研究使用深度强化学习模拟交通动态，模块化学习框架可以提高交通效率并可适应实际网络的复杂情况，单一通道的小型神经网络控制法可以在不同车流情况下消除交通阻塞。

Oct, 2017

基于场景分解的安全强化学习在复杂城市环境下的导航

我们提出了一种基于模块化的决策算法，以自主导航十字路口的挑战，通过安全机制，置信度更新技术和场景分解方法，提高了行车安全性和决策鲁棒性，并在复杂的十字路口情境中表现了优越性。

Apr, 2019

强化学习策略总结的布尔决策规则

该研究提出使用布尔决策规则模型来创建一个后续的基于规则的摘要，从而使强化学习策略可解释；实验结果显示该方法可以用于基于网格世界的DQN代理训练并创建简单的规则总结，同时也探讨了其在安全控制和调试RL代理时的潜在应用。

Jul, 2022

缺失数据下的交通信号控制强化学习方法

本文介绍了如何使用强化学习来解决城市道路网络中交通信号控制的问题。我们提出了两种解决方案：第一种方案使用状态值估计来进行自适应控制，第二种方案同时使用状态值和奖励值估计来训练强化学习模型进行自适应控制。我们在合成和实际道路网络交通方面进行了大量实验，并发现我们的方法在处理缺失数据的情况下表现优异，且具有鲁棒性。

Apr, 2023

引导式在线蒸馏: 通过离线演示提升安全强化学习

安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架，通过引导在线安全增强学习训练，将离线决策变压器策略提炼为轻量级策略网络，在挑战性的安全关键场景中成功解决决策问题。

Sep, 2023

引入PetriRL：一个集成Petri网和基于事件的强化学习的JSSP解决方案的创新框架

我们介绍了一种创新的框架来解决作业车间调度问题，通过使用Petri网建模作业车间，提高了可解释性，同时还实现了将原始数据直接整合到过程中，无需对作业车间实例进行预处理，Petri网的控制功能使得自动化组件能够掌控流程，允许智能体专注于关键决策，尤其是资源分配。在公共测试基准上，我们的方法在事件驱动控制和行为屏蔽的整合下表现出竞争优势的性能。对各种优化解决方案（包括启发式算法、元启发式算法和基于学习的算法）进行的比较分析凸显了我们的方法在大规模实例中的竞争力以及在小至中等规模场景中优于所有竞争对手的优越性。我们的方法不仅具有跨各种实例规模泛化的鲁棒能力，而且利用Petri网的图形特性，在推理阶段动态添加作业操作，无需对智能体进行重新训练，从而提高了灵活性。

Jan, 2024

基于安全强化学习的可证明交通规则遵守在开放海域中的应用

自动驾驶车辆必须遵守交通规则，为了解决使用基于优化的运动规划器解决的时间逻辑约束难题，我们提出了一种基于增强学习的可靠安全的方法来遵守交通规则，并以船只在开放海域中遵循《海上避碰规则公约》（COLREGS）为实际应用领域，我们引入了一种高效的验证方法来确定行动是否符合使用时间逻辑形式化的COLREGS，从而我们的行动验证被整合到增强学习过程中，使代理只选择被验证过的行动。与仅将交通规则信息整合到奖励函数中的代理相比，我们的可靠安全代理在关键的海上交通情况中始终遵守形式化规则，从而不会导致碰撞。

Feb, 2024

GuideLight: 更实用的交通信号控制方案的“工业解决方案”指导

交通信号控制方法基于强化学习优于传统方法，然而大多数强化学习方法在实际应用中面临输入、输出和循环流关系等三个因素的困难。为缩小强化学习方法与行业标准的差距，我们提出创新性的使用行业解决方案来指导强化学习代理。我们通过行为克隆和课程学习设计指导方法，使代理可以模仿和满足行业要求，并利用强化学习的探索和利用能力来提高性能。我们理论上证明，这样的指导可以大大减少寻找最优策略时的样本复杂度。我们的实验证明，我们的方法具有良好的循环流关系和卓越的性能。

Jul, 2024

基于强化学习的自适应交通信号控制

本研究针对城市交通需求持续增加导致的严重拥堵问题，提出了一种基于强化学习的自适应交通信号控制方法。通过动态控制交叉口的交通信号，优化现有交通网络，并开发了两种强化学习算法，实验结果表明其性能明显优于传统信号控制系统，潜在地降低了部署成本。

Aug, 2024