Feb, 2018
用强化学习解决车辆路径规划问题
Deep Reinforcement Learning for Solving the Vehicle Routing Problem
TL;DR本文提出了一个端到端的框架,使用强化学习来解决车辆路径问题(VRP),我们训练一个单一的模型,仅通过观察奖励信号和遵守可行性规则,就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数,我们的模型在实时中以连续操作序列的形式生成解决方案,无需为每个新问题实例重新训练,我们的方法在解决负载容量VRP的中等规模实例时,在解决质量上优于经典的启发式算法和Google的OR-Tools,同时具有可比较的计算时间,在本文中还探讨了分裂交付对解决质量的影响。我们的提出的框架可以应用于其他VRP变体,例如随机VRP,并具有应用于组合优化问题的潜力。