May, 2024

应急响应站点的多智能体强化学习与层次协调

TL;DR应对紧急响应管理中复杂优化问题,本研究提出了一种基于强化学习的方法,通过引入变换器来处理变维状态和行为,将复杂状态映射到固定维度观测,并应用组合技术将连续行为映射到离散分配,实验证明该方法能够大幅减少决策时间,并稍微降低平均救护车响应时间。