蒙特卡洛树搜索和监督学习相结合的综合框架用于列车时刻表问题
火车时刻表重新调度的研究中,通过基于强化学习的方法,设计了一个简单的有向图来表示问题,并利用图神经网络自动提取信息状态;通过改变解决方案的构建过程,使得决策模型与问题规模解耦合,确保生成方案的可行性;为模型设计了一个学习课程来处理不同程度延误的情况;并且提出了一个简单的局部搜索方法,显著提高了解决方案的质量,实验结果证明了该方法在解决各种不同程度火车延误和规模问题时比手工规则和现有解决方法具有更好的性能。
Jan, 2024
本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用,这种方法依赖于智能树搜索并平衡探索和利用。
Mar, 2021
该论文提出了一种名为 MCTSnet 的体系架构,其将基于模拟的搜索嵌入神经网络中,并通过向量嵌入扩展,评估和备份。该网络的参数进行端到端的训练优化,应用于小范围的搜索中,显著优于 MCTS 基线的性能。
Feb, 2018
本文使用深度图卷积神经网络模型对荷兰铁路公司列车单元调遣问题进行了研究,为了提高本问题的计算效率,将神经网络模型和局部搜索启发算法相结合,提高了解决方案的预测准确率和决策速度。
Jul, 2019
本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP),并提出一种新的框架,将规划算法和异步分布式深度强化学习方法相结合,相对于传统方法,提高了学习速度和收敛策略的能力。
Nov, 2018
本文提出了 Continuous Monte Carlo Graph Search(CMCGS),一种将 Monte Carlo Tree Search(MCTS)扩展到连续状态和动作空间的在线规划方法,并在 DeepMind Control Suite 基准测试和 2D 导航任务中表现优异。
Oct, 2022
利用深度神经网络和强化学习技术,结合蒙特卡罗方法和分层控制策略,解决了复杂动态环境下行车规划的问题,提出了一种用于道路自动驾驶的方案。该方案使用 LTL 约束条件和控制策略,训练神经网络,在规避交通事故、遵守交通规则的前提下,行驶到指定的终点。
Mar, 2017
这篇论文介绍了一种基于蒙特卡洛树搜索的去中心化合作规划方法,通过使用宏操作来描述自动驾驶车辆在不同的环境中的合作规划,实现不同交通参与者之间的协调和显式建模。
Jul, 2018
本文提出了一种名为 MCTS 的基于模拟退火算法的反合成规划方法,使用 Experience Guidance Network 从化学合成经验中学习知识,实现有效处理拥有巨大可能性的化学反应,实验结果证明在效率和功效上均优于现有研究成果。
Dec, 2021