May, 2024

iMTSP: 用命令式学习解决最小-最大多旅行商问题

TL;DR该论文提出了一种新颖的自我监督、双层优化学习框架(imperative MTSP),将多旅行商问题(MTSP)通过强制性学习的方式分解为多个单旅行商问题(TSP),并使用控制变量梯度估计算法克服了梯度方差问题,实验证明该方法在大规模问题下比先进的强化学习基线收敛更快,并找到比Google OR-Tools MTSP求解器短80%的最优旅行路径。