Apr, 2017

基于深度策略梯度和价值函数的强化学习交通信号灯控制

TL;DR本文的研究探究了在使用深度神经网络架构和强化学习技术组合的方法来解决高维状态和行为空间下的复杂控制问题方面的最新进展,并构建了两种基于强化学习的算法:基于策略梯度和基于值函数的代理,以预测交通路口最佳的信号灯状态,通过 SUMO 交通模拟器实验表明,本方法在训练过程中没有出现不稳定问题。