Dec, 2019

学习可解释的交通信号控制策略

TL;DR本文介绍了几种在线优化技术用于调整可解释控制函数的参数,并且研究发现,采用基于价值的强化学习可以更好地训练控制函数,特别是 Deep Regulatable Hardmax Q-learning 算法可以使得可解释信号灯控制函数得到优化,从而使交通拥堵降低 19.4%。