本文介绍了一种使用强化学习初值方法框架来改善启发式算法的初始解决方案的方法,并在 NP 完全的装箱问题上的实验中展示了 RLHO 方法比我们的基线表现更好。
Jun, 2019
本文综述了近期在强化学习领域中在解决组合优化问题方面的进展,包含了RL框架与传统算法的比较以及各方法解决不同问题的时间线,结果表明基于RL的模型成为解决组合问题的方向值得期待。
Mar, 2020
本文介绍了一种基于深度强化学习和约束编程的混合算法,应用于复杂的组合优化问题,并在实验中成功运用于旅行商问题和投资组合优化问题,表现优于单独的深度强化学习和约束编程算法,同时也达到了与工业级求解器相竞争的水平。
Jun, 2020
利用图神经网络和深度Q学习的强化学习方法,针对组合优化问题提出了一种无需问题特定设计即可实现状态最优化策略搜索的通用模型,并在最大k-Cut问题和旅行商问题上实验验证了其优越性。
Feb, 2021
本文提出了基于深度强化学习的分支定界算法,该算法利用离线模仿学习与自主生成数据相结合的优化方法,并且引入了一种优先存储机制来控制二者之间的混合比例,以此提高算法的性能表现。文章在三个公共研究基准上对所提出的算法进行了评估,并与三种经典的启发式方法以及一种先进的模仿学习算法进行了比较。研究结果表明,所提出的算法在性能上表现最佳,并具有不断提高分支定界算法性能的潜力。
Jan, 2022
本文提出一种名为 retro branching 的强化学习方法,用于解决混合整数线性规划问题中的 branch-and-bound 算法中的变量选择问题,与之前的方法相比,本方法不需要专家指导或预训练,且在四种组合问题上表现优异。
May, 2022
提出了一种“免费”技术,通过利用对称性来增强任何基于深度强化学习(DRL)的求解器的性能,而不需要额外的目标函数评估。这种方法通过奖励保持变换来扩充DRL的训练,并且在NP硬路由优化、计划优化和革新物质优化等诸多领域得到了广泛的实证评估,展现了优异的样本效率。
Jun, 2023
本文介绍了一种基于强化学习的组合优化问题解决方法,使用树马尔可夫决策过程视角选择变量分支,并且优化学习对象,相较之前的强化学习方法,训练数据量更小,生成树的大小更小。
通过结合行为克隆和增强学习方法,本文简化了端到端的神经组合优化训练过程,采用随机抽样解决方案并利用概率策略改进来提高模型性能,在旅行推销员问题和车辆路径问题方面取得了令人满意的结果,并应用于作业车间调度问题,超越现有的方法。
Mar, 2024
图离散结构上关于决策制定方法的综合视角,通过采用强化学习算法解决图优化问题。
Apr, 2024