多车辆路径问题的强化学习

Nov, 2022

Reinforcement Learning for Multi-Truck Vehicle Routing Problems

Randall Correll, Sean J. Weinberg, Fabio Sanches, Takanori Ide, Takafumi Suzuki

TL;DR利用深度强化学习的编码器 - 解码器模型，并借助于复杂的张量需求结构，可以解决多车辆多节点的物流配送问题，从而实现对汽车配送业务的优化。

Abstract

vehicle routing problems and other combinatorial optimization problems have been approximately solved by reinforcement learning agents with policies based on →

reinforcement learning encoder-decoder models vehicle routing problems supply chain optimization quantum computing

发现论文，激发创造

多卡车多腿需求路线的深度强化学习

基于深度强化学习，使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性，但在某些复杂车辆路径问题上，仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体，扩展现有的编码器 - 解码器注意模型，使其能够处理多辆卡车和多段路径需求，并在日本汽车零部件制造商爱信公司的实际供应链环境中测试，发现我们的算法优于爱信公司的最佳解决方案。

Jan, 2024

利用强化学习实现碳减排潜力的三维装载有容量的车辆路径问题

使用强化学习模型解决三维装备车辆路径问题，使得物流优化向大规模应用迈出有希望的第一步。

Jul, 2023

运用深度强化学习解决车辆路径问题

本文介绍了强化学习在处理 NP-Hard 组合优化问题，特别是车辆路径问题方面的应用。作者将问题建模成一个马尔科夫决策过程，并采用了 Actor-Critic 类的 PPO 方法和基于卷积神经网络的神经架构。尽管与最先进的 OR-TOOLS 解算器相比略逊一筹，但该算法具有较好的泛化能力和较短的解答时间。未来的研究方向是提高算法的性能表现。

Jul, 2022

用强化学习解决车辆路径规划问题

本文提出了一个端到端的框架，使用强化学习来解决车辆路径问题 (VRP)，我们训练一个单一的模型，仅通过观察奖励信号和遵守可行性规则，就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数，我们的模型在实时中以连续操作序列的形式生成解决方案，无需为每个新问题实例重新训练，我们的方法在解决负载容量 VRP 的中等规模实例时，在解决质量上优于经典的启发式算法和 Google 的 OR-Tools，同时具有可比较的计算时间，在本文中还探讨了分裂交付对解决质量的影响。我们的提出的框架可以应用于其他 VRP 变体，例如随机 VRP，并具有应用于组合优化问题的潜力。

Feb, 2018

动态关注模型的深度强化学习算法在车辆路径问题中的应用

利用动态编码器 - 解码器结构的动态关注模型来更好地解决车辆路径问题，并显示出良好的泛化性能。

Feb, 2020

仓储中的拣货路径问题的深度强化学习

仓库操作管理中的拣货路径规划是一个关键问题。由于问题的复杂性和快速解决的需求，实践中经常使用次优算法。然而，强化学习提供了传统启发式方法的一个有吸引力的替代方案，潜在地在速度和准确性方面优于现有方法。我们介绍了一种基于注意力机制的神经网络模型来建模拣货路线，该模型使用强化学习进行训练。我们的方法在一系列问题参数上与现有启发式方法进行了评估，以展示其效力。我们提出的方法的一个关键优势是可以降低路径的感知复杂性。

Feb, 2024

解决随机车辆路径问题的强化学习

本研究旨在解决在不确定条件下优化车辆路线的具有挑战性任务的随机车辆路径问题（SVRP）中，利用强化学习（RL）和机器学习（ML）技术的利用不足的问题。我们提出了一个全面解决 SVRP 中预测性关键源的全新端到端框架，采用简单而有效的架构和定制的训练方法来利用 RL agent。通过比较分析，我们的模型相较于一个广泛采用的最先进元启发式算法表现出了更好的性能，实现了显著的 3.43% 的行程成本降低。此外，该模型在不同的 SVRP 设置中表现出了鲁棒性，突出了它的适应能力和学习优化路径策略在不同环境中。我们框架的公开实现作为未来研究努力的宝贵资源，旨在推进基于 RL 的 SVRP 解决方案。

Nov, 2023

电动汽车车辆 - 网格供应路线问题的强化学习方法

本研究基于强化学习算法，从车辆装载容量、时间窗口、能量供应等多个因素出发，在大规模客户和配电站环境下，构建了满足多个系统目标的电动车路由模型，并通过实验证明，该方法不但在速度上快于混合整数线性规划和遗传算法元启发式算法，而且结果质量接近最优解。

Apr, 2022

强化学习求解 NP-hard 问题：以 CVRP 为例

本文研究使用强化学习解决一种典型的组合优化问题：车辆路径问题，将其形式化为强化学习框架，并在基准实例上比较了两种最有前途的强化学习方法与传统求解技术。研究发现，与传统求解器相比，强化学习算法具有许多优点，尤其是在解决更复杂的组合优化问题以及加速问题求解方面。

Jan, 2022

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022