Jan, 2023

基于 Nash Deep Q 网络方法的大规模交通信号控制

TL;DR本文介绍了一种基于 nash equilibrium 的 off-policy nash deep Q-Network (OPNDQN) 算法,该算法克服了完全集中和多智能体强化学习方法的缺点,不仅可以在多个交叉口中找到纳什均衡,也能够解决多智能体 Markov 过程的不确定性问题。采用 SUMO 仿真器进行了广泛的实验,结果表明 OPNDQN 相对于现有的多智能体强化学习方法在平均排队长度、训练回报和平均等待时间方面具有显著优势。