解决路径规划问题学习改进启发式方法
本文提出了一个端到端的框架,使用强化学习来解决车辆路径问题(VRP),我们训练一个单一的模型,仅通过观察奖励信号和遵守可行性规则,就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数,我们的模型在实时中以连续操作序列的形式生成解决方案,无需为每个新问题实例重新训练,我们的方法在解决负载容量VRP的中等规模实例时,在解决质量上优于经典的启发式算法和Google的OR-Tools,同时具有可比较的计算时间,在本文中还探讨了分裂交付对解决质量的影响。我们的提出的框架可以应用于其他VRP变体,例如随机VRP,并具有应用于组合优化问题的潜力。
Feb, 2018
本文介绍了一种基于深度学习算法的解决平面欧几里得图中旅行商问题的方法,通过使用图卷积网络构建TSP图表示,并通过高度并行化的Beam Search 非自回归方法输出巡回路径,我们在解决相同节点规模下的问题中比最近提出的自回归深度学习技术表现更好,最终平均优化差距从50个节点降低到0.01%,100个节点从 2.26%降至1.39%,尽管相较于标准的运筹学求解器,我们的方法还有所欠缺。
Jun, 2019
本文研究基于深度学习和强化学习的旅行商问题的新模型和架构,强调机器学习在解决组合优化问题方面的限制,并提出了一种新的度量标准ROD以回答两个基本问题。
Sep, 2019
本论文使用基于深度加强学习方法的策略梯度算法,通过2-opt操作符学习本地搜索启发式,提出了一种可以轻松扩展到更一般k-opt移动的策略神经网络,实验结果表明,所学习的策略比之前的具有最先进性能的深度学习方法更快接近最优解。
Apr, 2020
本文利用强化学习和 Transformer 结构设计了用于 Traveling Salesman Problem 的新型算法,相较于以往的算法在 TSP50 和 TSP100 上有了更好的表现
Mar, 2021
利用基于PSRO(Policy Space Response Oracle)方法的两人零和博弈进行深度学习解算器的泛化能力提升,实现在不同的TSP任务中最大程度的通用性表现,最终实现了解算器人口的效用降低和达到Nash均衡。
Oct, 2021
利用熵正则化最优传输技术作为深度强化学习网络中的一层,以实现更快速的学习并在端到端训练期间强制执行分配约束和规定,从而对于解决组合优化问题的效率进行优化。
Mar, 2022
提出一种基于深度强化学习的经理-工作人员框架来解决一种复杂但非常重要的旅行商问题的变体(即具有时间窗口和拒绝的多车TSP),其中不能在截止日期前提供服务的客户可能被拒绝。经过实验结果证明,该框架在解决大型问题时具有高质量的解决方案和更短的计算时间。
Sep, 2022
本研究提出了一种基于层次强化学习的端到端学习框架,称为H-TSP,用于解决大规模TSP问题,通过选择子集并使用深度学习模型直接生成解决方案,具有可扩展和高效性。
Apr, 2023
本研究针对组合优化问题,提出了在深度学习模型训练前进行预训练以利用相关算法对于解决TSP问题具有提升作用的算法推理方法,并证明该方法能够优于传统深度学习模型。
May, 2023