Oct, 2023

利用深度强化学习解决二次分配问题

TL;DR通过深度强化学习的方法解决 Quadratic Assignment Problem(QAP)的 Koopmans-Beckman 公式,使用双指针网络(double pointer network)在选择下一个设施放置位置和上一个位置放置设施之间交替,并通过 A2C 算法在一系列合成实例上进行模型训练。在样本外测试中,我们的解决方案与高质量的局部搜索基线相比,平均准确率达到了 97.5%,在 1.2% 的实例中表现优于基线。