Apr, 2022

基于邻域策略优化的拥堵高速公路交通控制学习

TL;DR本研究提出了一种基于 PPO 强化学习的延迟补偿反馈控制器,通过控制自适应巡航控制(ACC)车辆的时间间隔来稳定拥堵区域的交通流量,使用 ARZ 模型对一段高速公路上的交通流进行仿真实验,结果表明,相对于 Lyapunov 控制,PPO 控制具有更快的收敛速度和更少的控制力,在具有输入延迟的交通系统中,PPO 控制器的性能与后方补偿控制器的性能相当。然而,PPO 对参数扰动具有鲁棒性,而后方补偿控制器无法稳定其中一个参数受高斯噪声扰动的系统。