RL-MSA:一种基于强化学习的多线路公交调度方法
本研究通过异步多智能体强化学习技术,引入图注意力神经网络并应用智能卡数据,实现公交车队控制,结果表明该模型优于传统控制方法和现有的多智能体强化学习方法。
May, 2021
本研究基于批量强化学习的方法,运用基于惩罚项的自适应奖励方式在普通的循环交通信号控制策略下,构建出一个马尔可夫决策过程(MDP)的学习框架,不仅提高了对于不同分布情境的管理优化,还显著提高了交通信号控制的效率。
Jan, 2022
本研究提出了一种基于强化学习的实时调度算法,采用了新型的时间差异价值更新方法,并引入了自适应图剪枝策略,实现了A/B测试下司机收入总量提升超过1.3%和全面部署后主要性能指标提升达到5.3%的显著性能提升。
Feb, 2022
本研究提出了一种结合顺序公交网络设计和最优学习的人工智能驱动算法,以逐步扩大路线系统并更新当前的操作员使用的知识,验证表明,考虑相关性的探索可以实现比贪婪选择更好的性能,在未来的研究中,该问题可能加入更多复杂性如出行时间弹性、换乘次数无限制和扩展成本等方面。
May, 2023
本研究提出了一个两层框架来促进在线车队管理,具体而言,上层框架提出了一种新的多主体封建强化学习模型,以协同分配空闲车辆到不同的城际线路,而下层利用自适应大邻域搜索启发式不断更新车辆的路线。
Jul, 2023
基于强化学习的超启发式框架,在列生成中提供更好的整数解和加速收敛,通过减少含潜在最优解边的网络规模,在解决车辆路径和巴士司机调度问题中比传统方法降低至多27.9%和15.4%的总成本。
Oct, 2023
提出了一种用于安全智能控制城市轨道交通自主运营列车的SSA-DRL框架,结合了线性时态逻辑、强化学习和蒙特卡洛树搜索,可以生成满足速度约束、时间表约束和优化运营流程的安全控制指令序列。通过消融实验和与计划操作方案的比较,评估了该框架在城市轨道交通自主运营中的决策效果。
Nov, 2023
本文提出了一种基于图强化学习的方法,用于在线规划多个垂降站之间的电动飞机航班和目的地。训练数据表明,这种方法在性能和效率方面表现优秀。
Jan, 2024
本研究旨在解决传统自适应交通信号优先算法在处理复杂非线性目标函数时的局限性,提出了一种基于模型的强化学习交通控制方法。通过在微观仿真环境中应用连接车辆数据,研究开发了一种事件驱动的交通信号优先控制RL代理,实现了公交车约21%的行程时间缩短,并对一般交通影响微小,具有重要的实用价值。
Jul, 2024
本研究解决了现代制造过程中实时动态调度任务的复杂性问题,通过应用领导-跟随多智能体强化学习(MARL)方法,将调度问题分解为一系列子问题,以实现可扩展性。研究结果表明,提出的模型在各方面优于现有基于深度强化学习的调度模型,并在需求变化下展现出更强的调度性能,具有广泛的制造业应用潜力。
Sep, 2024