Oct, 2023

学习使用灵活的神经 k-Opt 搜索可行和不可行路由问题的区域

TL;DR本文介绍了一种用于路径规划问题的新型学习 - 搜索(L2S)求解器 NeuOpt,通过定制的行动因子分解方法和自定义的双流递归解码器,学习实现柔性的 k-opt 交换。我们提出了引导式非可行区域探索(GIRE)策略,通过补充带有可行性相关特征的 NeuOpt 策略网络和利用奖励塑形更有效地引导增强学习,在规避纯可行性屏蔽方案的基础上,使得求解器能够自主地进行可行和不可行区域的探索。此外,我们在推理过程中为 NeuOpt 配备了动态数据增强(D2A),以实现更多样化的搜索。大量在旅行推销员问题(TSP)和车辆路径规划问题(CVRP)上的实验证明,我们的 NeuOpt 不仅明显优于现有的(基于屏蔽的)L2S 求解器,还表现出优于学习 - 构建(L2C)和学习 - 预测(L2P)求解器的优势。值得注意的是,我们提供了关于神经求解器如何处理 VRP 约束的新视角。我们的代码可在此 URL 找到:[URL]