Jul, 2024

GuideLight: 更实用的交通信号控制方案的“工业解决方案”指导

TL;DR交通信号控制方法基于强化学习优于传统方法,然而大多数强化学习方法在实际应用中面临输入、输出和循环流关系等三个因素的困难。为缩小强化学习方法与行业标准的差距,我们提出创新性的使用行业解决方案来指导强化学习代理。我们通过行为克隆和课程学习设计指导方法,使代理可以模仿和满足行业要求,并利用强化学习的探索和利用能力来提高性能。我们理论上证明,这样的指导可以大大减少寻找最优策略时的样本复杂度。我们的实验证明,我们的方法具有良好的循环流关系和卓越的性能。