基于邻域策略优化的拥堵高速公路交通控制学习

Apr, 2022

基于邻域策略优化的拥堵高速公路交通控制学习

Proximal Policy Optimization Learning based Control of Congested Freeway Traffic

Shurong Mo, Nailong Wu, Jie Qi, Anqi Pan, Zhiguang Feng...

TL;DR本研究提出了一种基于 PPO 强化学习的延迟补偿反馈控制器，通过控制自适应巡航控制（ACC）车辆的时间间隔来稳定拥堵区域的交通流量，使用 ARZ 模型对一段高速公路上的交通流进行仿真实验，结果表明，相对于 Lyapunov 控制，PPO 控制具有更快的收敛速度和更少的控制力，在具有输入延迟的交通系统中，PPO 控制器的性能与后方补偿控制器的性能相当。然而，PPO 对参数扰动具有鲁棒性，而后方补偿控制器无法稳定其中一个参数受高斯噪声扰动的系统。

Abstract

This study proposes a delay-compensated feedback controller based on proximal policy optimization (PPO) reinforcement learning to stabilize traffic flow in the congested regime by manipulating the time-gap of ada

delay-compensated feedback controller proximal policy optimization traffic flow adaptive cruise control-equipped vehicles numerical simulation

发现论文，激发创造

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

协作式近端策略优化

本文提出了一种名为 CoPPO 的算法，用于多智能体环境下的多项策略优化，并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配，解决了多智能体系统中同时更新智能体策略时高方差的问题，并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线，并与最新的多智能体 PPO 方法（即 MAPPO）相竞争。

Nov, 2021

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024

交通信号控制的协作强化学习

该论文提出了一种协作多目标多智能体深度再强化学习算法（COMMA-DDPG），用于交通信号控制的全局优化和减少延迟等待时间。该算法在真实的亚洲交通数据集上进行了评估，相比目前最先进的方法，成功地减少了 60％的延迟时间。

May, 2022

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

用于边界稳定化的神经算子在停车交通中的应用

本研究介绍了一种利用神经算子解决拥堵交通流中停止 - 启动不稳定性问题的新方法，该框架利用神经算子为交通流系统设计控制策略，通过 Aw-Rascle-Zhang（ARZ）模型描述交通动力学，结合两种不同的神经算子学习方案来稳定交通 PDE 系统。

Dec, 2023

基于近端策略优化的智能家庭太阳能管理

通过基于 Proximal Policy Optimization (PPO) 的框架，使用循环奖励模型来最大化利润，相比其他简单算法在累积总利润方面取得了 30％以上的改进，该方法在复杂领域如金融市场中进行增强学习算法以规划行动方面表现出良好的潜力，同时提出了一种基于孤立波的长序列嵌入新方法，在使用随机浮点数据增强时表现优于普通嵌入方法。

Apr, 2024