本文介绍了一种使用强化学习初值方法框架来改善启发式算法的初始解决方案的方法,并在 NP 完全的装箱问题上的实验中展示了 RLHO 方法比我们的基线表现更好。
Jun, 2019
本文综述了近期在强化学习领域中在解决组合优化问题方面的进展,包含了RL框架与传统算法的比较以及各方法解决不同问题的时间线,结果表明基于RL的模型成为解决组合问题的方向值得期待。
Mar, 2020
本文介绍了一种基于深度强化学习和约束编程的混合算法,应用于复杂的组合优化问题,并在实验中成功运用于旅行商问题和投资组合优化问题,表现优于单独的深度强化学习和约束编程算法,同时也达到了与工业级求解器相竞争的水平。
Jun, 2020
本文研究使用强化学习解决一种典型的组合优化问题:车辆路径问题,将其形式化为强化学习框架,并在基准实例上比较了两种最有前途的强化学习方法与传统求解技术。研究发现,与传统求解器相比,强化学习算法具有许多优点,尤其是在解决更复杂的组合优化问题以及加速问题求解方面。
Jan, 2022
本文提出一种基于强化学习的方法用于解决组合优化中的数据标记和推理延迟问题,并使用蒙特卡罗树搜索和价值网络提高策略网络的性能表现。作者在四种不同类别的组合优化问题上进行了评估,结果表明该方法相较于现有机器学习和启发式方法有更优的性能表现。
Jun, 2022
通过引入基于Population的强化学习思想,由于其在最大化性能时尚未预定义特定的多样性,证明了该方法产生一组互补的策略,并在三个著名的NP-hard问题上获得最新的强化学习结果:旅行推销员问题(TSP),分配式车辆路径规划问题(CVRP)和01背包问题(KP)。在特定的TSP问题上,其超过先前的最先进技术,将最优性差距分为5个,同时缩短了推理时间超过一个数量级。
Oct, 2022
基于强化学习的超启发式框架,在列生成中提供更好的整数解和加速收敛,通过减少含潜在最优解边的网络规模,在解决车辆路径和巴士司机调度问题中比传统方法降低至多27.9%和15.4%的总成本。
Oct, 2023
通过结合行为克隆和增强学习方法,本文简化了端到端的神经组合优化训练过程,采用随机抽样解决方案并利用概率策略改进来提高模型性能,在旅行推销员问题和车辆路径问题方面取得了令人满意的结果,并应用于作业车间调度问题,超越现有的方法。
Mar, 2024
我们通过应用简单但有效的量规变换(GT)技术,探索了在测试中不断改进解决方案的强化学习(RL)模型,詮釋了在复杂的组合优化问题中构建更有效模型的方法。
Apr, 2024
MEMENTO是一种基于记忆的强化学习方法,可以在推理时间动态更新行动分布,提高神经求解器的适应性和性能。
Jun, 2024