Jun, 2023

安全的基于模型的多智能体均场强化学习

TL;DR本研究提出了 Safe-M3-UCRL 算法,使用平均场强化学习来为大量智能体寻找优化方法,并且可以在面临未知转换动态时实现建模优化问题,保证悲观约束条件的满足。在这个基础上,我们以共享代步交通问题为例进行了模拟评估,结果表明,该算法在保证服务可用性的同时,能够有效地维持区域内的供需平衡。