Apr, 2020

通过深度强化学习学习旅行商问题的2-opt启发式算法

TL;DR本论文使用基于深度加强学习方法的策略梯度算法,通过2-opt操作符学习本地搜索启发式,提出了一种可以轻松扩展到更一般k-opt移动的策略神经网络,实验结果表明,所学习的策略比之前的具有最先进性能的深度学习方法更快接近最优解。