RL4CO：组合优化广泛强化学习基准测试

Jun, 2023

RL4CO：组合优化广泛强化学习基准测试

RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark

Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim...

TL;DR我们介绍了 RL4CO，这是一个全面的强化学习用于组合优化（CO）基准测试。我们通过模块化和配置管理等最佳实践来实现高效性和易于修改性，并重点强调可扩展性和广义能力对于各种优化任务的重要性，我们系统地评估了各种模型的样本效率，零射击推广以及数据分布变化的适应性。我们的实验表明，当使用这些新指标进行评估时，一些最新的最先进的方法落后于其前辈，这表明需要更平衡的观点来评估神经网络 CO 求解器的性能。我们希望 RL4CO 将鼓励探索解决复杂现实世界任务的新型解决方案，通过将科学与软件工程分离的标准化接口与现有方法进行比较。我们在此 https URL 上公开发布我们的库。

Abstract

We introduce rl4co, an extensive reinforcement learning (RL) for combinatorial optimization (CO) →

rl4co reinforcement learning combinatorial optimization benchmark neural network

发现论文，激发创造

学习鲁棒组合优化：算法与应用

该论文研究了利用神经网络在 robust combinatorial optimization 中解决 minimax optimization 问题的新方法 Learning for Robust Combinatorial Optimization (LRCO)，并通过在车载边缘计算中解决任务分配问题进行模拟，证明了 LRCO 能够大大减少最坏情况的成本和提高鲁棒性，同时具有非常低的运行时复杂度。

Dec, 2021

使用强化学习的受限组合优化

本文提出一个深度强化学习的框架来解决受限的组合优化问题，将受约束的组合问题定义为完全可观的受约束马尔可夫决策过程（CMDP），并提出从不满足的约束产生惩罚信号，以推断作为启发式算法的策略。通过对约束工厂和资源分配问题进行的实验表明，本文的提议对于比较经典的启发式算法、元启发式算法和约束编程（CP）求解器来说，能更快地求得答案。

Jun, 2020

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

基于哈密顿量的量子强化学习用于神经计算组合优化

基于 Hamiltonian 的量子强化学习（QRL）是将量子计算与神经组合优化相结合的一种方法，通过对组合优化问题的 Hamiltonian 公式建模，拥有较好的训练性能，适用于广泛的问题类别，并与 QAOA 进行了比较。

May, 2024

组合优化中的对称探索是自由的！

提出了一种 “免费” 技术，通过利用对称性来增强任何基于深度强化学习（DRL）的求解器的性能，而不需要额外的目标函数评估。这种方法通过奖励保持变换来扩充 DRL 的训练，并且在 NP 硬路由优化、计划优化和革新物质优化等诸多领域得到了广泛的实证评估，展现了优异的样本效率。

Jun, 2023

自我改进学习的可扩展神经组合优化

提出了一种自我改进学习（Self-Improved Learning, SIL）方法，用于提高神经组合优化（neural combinatorial optimization, NCO）的可扩展性，包括有效的模型训练和解决大规模问题实例的线性复杂度注意机制。在旅行推销员问题（Travelling Salesman Problem, TSP）和容量车辆路径问题（Capacitated Vehicle Routing Problem, CVRP）上进行的全面实验证明了该方法的出色可扩展性。

Mar, 2024

RELS-DQN: 一种用于组合优化的稳健高效的局部搜索框架

本文介绍了一种名为 RELS-DQN 的深度强化学习（DQN）框架，其利用消息传递神经网络（MPNN）实现局部搜索行为，且在保证运行时和内存效率的同时，在各种应用中实现比本地搜索算法和现有 DQN 模型更高的解值。

Apr, 2023

基于 POMO 的神经组合优化的领导者奖励

基于强化学习的深度神经网络在解决组合优化问题方面发展迅速，我们提出了 Leader Reward 方法，并应用于 Policy Optimization with Multiple Optima (POMO) 模型的两个训练阶段，以增强模型生成最优解的能力。我们证明 Leader Reward 极大地提高了模型生成最优解的质量。

May, 2024

组合优化的强化学习：一项调查研究

本文综述了近期在强化学习领域中在解决组合优化问题方面的进展，包含了 RL 框架与传统算法的比较以及各方法解决不同问题的时间线，结果表明基于 RL 的模型成为解决组合问题的方向值得期待。

Mar, 2020

强化学习的神经组合优化

本文提出了一种利用神经网络和强化学习解决组合优化问题的框架，特别关注旅行推销员问题和背包问题，证明了该方法在不需要太多工程和启发式设计的情况下在二维欧几里得图上取得接近最优结果，并且可以得到具有多达 200 个项目实例的最优解。

Nov, 2016