Apr, 2020

通过深度强化学习学习旅行商问题的 2-opt 启发式算法

TL;DR本论文使用基于深度加强学习方法的策略梯度算法,通过 2-opt 操作符学习本地搜索启发式,提出了一种可以轻松扩展到更一般 k-opt 移动的策略神经网络,实验结果表明,所学习的策略比之前的具有最先进性能的深度学习方法更快接近最优解。