运用深度强化学习解决车辆路径问题

Jul, 2022

运用深度强化学习解决车辆路径问题

Solving the vehicle routing problem with deep reinforcement learning

Simone Foa, Corrado Coppola, Giorgio Grani, Laura Palagi

TL;DR本文介绍了强化学习在处理 NP-Hard 组合优化问题，特别是车辆路径问题方面的应用。作者将问题建模成一个马尔科夫决策过程，并采用了 Actor-Critic 类的 PPO 方法和基于卷积神经网络的神经架构。尽管与最先进的 OR-TOOLS 解算器相比略逊一筹，但该算法具有较好的泛化能力和较短的解答时间。未来的研究方向是提高算法的性能表现。

Abstract

Recently, the applications of the methodologies of reinforcement learning (RL) to NP-Hard combinatorial optimization problems have become a popular topic. This is essentially due to the nature of the traditional

reinforcement learning combinatorial optimization vehicle routing problem markov decision process convolutional neural networks

发现论文，激发创造

强化学习求解 NP-hard 问题：以 CVRP 为例

本文研究使用强化学习解决一种典型的组合优化问题：车辆路径问题，将其形式化为强化学习框架，并在基准实例上比较了两种最有前途的强化学习方法与传统求解技术。研究发现，与传统求解器相比，强化学习算法具有许多优点，尤其是在解决更复杂的组合优化问题以及加速问题求解方面。

Jan, 2022

用强化学习解决车辆路径规划问题

本文提出了一个端到端的框架，使用强化学习来解决车辆路径问题 (VRP)，我们训练一个单一的模型，仅通过观察奖励信号和遵守可行性规则，就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数，我们的模型在实时中以连续操作序列的形式生成解决方案，无需为每个新问题实例重新训练，我们的方法在解决负载容量 VRP 的中等规模实例时，在解决质量上优于经典的启发式算法和 Google 的 OR-Tools，同时具有可比较的计算时间，在本文中还探讨了分裂交付对解决质量的影响。我们的提出的框架可以应用于其他 VRP 变体，例如随机 VRP，并具有应用于组合优化问题的潜力。

Feb, 2018

解决随机车辆路径问题的强化学习

本研究旨在解决在不确定条件下优化车辆路线的具有挑战性任务的随机车辆路径问题（SVRP）中，利用强化学习（RL）和机器学习（ML）技术的利用不足的问题。我们提出了一个全面解决 SVRP 中预测性关键源的全新端到端框架，采用简单而有效的架构和定制的训练方法来利用 RL agent。通过比较分析，我们的模型相较于一个广泛采用的最先进元启发式算法表现出了更好的性能，实现了显著的 3.43% 的行程成本降低。此外，该模型在不同的 SVRP 设置中表现出了鲁棒性，突出了它的适应能力和学习优化路径策略在不同环境中。我们框架的公开实现作为未来研究努力的宝贵资源，旨在推进基于 RL 的 SVRP 解决方案。

Nov, 2023

多卡车多腿需求路线的深度强化学习

基于深度强化学习，使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性，但在某些复杂车辆路径问题上，仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体，扩展现有的编码器 - 解码器注意模型，使其能够处理多辆卡车和多段路径需求，并在日本汽车零部件制造商爱信公司的实际供应链环境中测试，发现我们的算法优于爱信公司的最佳解决方案。

Jan, 2024

深度策略动态规划在车辆路径问题中的应用

Deep Policy Dynamic Programming 优先和限制来自深度神经网络的策略，以结合学习嵌入式启发式和动态规划 (DP) 算法的优点，以优化旅行商问题 (TSP)、车辆路径问题 (VRP) 和带时间窗口的 TSP (TSPTW) 的性能，同时胜过大多数其他解决 TSPs、VRPs 和 TSPTWs 的 ' 神经方法 '。

Feb, 2021

SmartPathfinder：使用强化学习推动无人机车辆路径问题启发式解决方案的极限

研究论文研究了无人机车辆路径问题，提出了一种综合考虑启发式方法和强化学习框架的解决方案，以提高解决方案的质量和计算速度。

Apr, 2024

多车辆路径问题的强化学习

利用深度强化学习的编码器 - 解码器模型，并借助于复杂的张量需求结构，可以解决多车辆多节点的物流配送问题，从而实现对汽车配送业务的优化。

Nov, 2022

使用 Rollouts 和 MAX-SAT 解决带时间窗口的有容量车辆路径问题

本文提出一种混合方法，将强化学习、策略推进和可满足性求解器相结合，以实现计算时间和解决方案质量之间的可调节权衡，该方法可以解决任意规模的问题，且无需额外训练，在解决车辆路由问题中的效果优于现有的基于学习的方法和元启发式算法，更具有泛化性。

Jun, 2022

结合强化学习和约束编程用于组合优化

本文介绍了一种基于深度强化学习和约束编程的混合算法，应用于复杂的组合优化问题，并在实验中成功运用于旅行商问题和投资组合优化问题，表现优于单独的深度强化学习和约束编程算法，同时也达到了与工业级求解器相竞争的水平。

Jun, 2020

学习协作策略以解决 NP-hard 路径规划问题

本论文提出了一种新的层次化问题求解策略，称为学习协作策略，它使用两个迭代的深度强化学习策略：播种机和修订机，旨在有效地找到近似最优解，扩展了深度强化学习框架在解决 NP-hard 路由问题方面的应用。

Oct, 2021