POMO: 强化学习中带有多个最优解的策略优化

Oct, 2020

POMO: 强化学习中带有多个最优解的策略优化

POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Yeong-Dae Kwon, Jinho Choo, Byoungjip Kim, Iljoo Yoon, Youngjune Gwon...

TL;DR使用改进的 REINFORCE 算法的 POMO 方法，结合了基于增强的推理方法，可获得用于解决 NP-hard 问题的先进的启发式方法，可用于广泛的组合优化问题，显着提高了其性能和速度。

Abstract

In neural combinatorial optimization (CO), reinforcement learning (RL) can turn a deep neural net into a fast, powerful heuristic solver of NP-hard problems. This approach has a great potential in practical appli

neural combinatorial optimization reinforcement learning pomo np-hard problems symmetries

发现论文，激发创造

基于 POMO 的神经组合优化的领导者奖励

基于强化学习的深度神经网络在解决组合优化问题方面发展迅速，我们提出了 Leader Reward 方法，并应用于 Policy Optimization with Multiple Optima (POMO) 模型的两个训练阶段，以增强模型生成最优解的能力。我们证明 Leader Reward 极大地提高了模型生成最优解的质量。

May, 2024

组合优化的多目标指针网络

这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架，用于有效解决多目标组合优化问题，在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。

Apr, 2022

神经多目标组合优化问题中的 Pareto 集学习

本文通过神经组合优化的思想，提出了多目标组合优化问题的学习方法，模型可直接生成逼近帕累托前沿的解，证明了该方法在多目标问题上的有效性。

Mar, 2022

多目标优化的深度强化学习

本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Jun, 2019

基于模型探索的策略优化

介绍了一种名为 Policy Optimization with Model-based Explorations (POME) 的新的强化学习策略优化方法，将模型自由和模型依赖估计方法的差距视作探索价值的度量，并将 Monte-Carlo 抽样方法与转移模型相结合，以最大化预测误差的探索价值，从而解决了模型自由与模型依赖学习之间权衡的问题。

Nov, 2018

基于人群的组合优化强化学习

通过引入基于 Population 的强化学习思想，由于其在最大化性能时尚未预定义特定的多样性，证明了该方法产生一组互补的策略，并在三个著名的 NP-hard 问题上获得最新的强化学习结果：旅行推销员问题 (TSP)，分配式车辆路径规划问题 (CVRP) 和 01 背包问题 (KP)。在特定的 TSP 问题上，其超过先前的最先进技术，将最优性差距分为 5 个，同时缩短了推理时间超过一个数量级。

Oct, 2022

强化学习驱动的启发式优化

本文介绍了一种使用强化学习初值方法框架来改善启发式算法的初始解决方案的方法，并在 NP 完全的装箱问题上的实验中展示了 RLHO 方法比我们的基线表现更好。

Jun, 2019

PPO-CMA：具有协方差矩阵适应性的近端策略优化

提出了 Proximal Policy Optimization (PPO) 算法的改进版本 PPO-CMA，通过 adaptively 扩大 exploration variance 来加速算法优化速度，相对于传统 PPO 算法在 Roboschool continuous control benchmarks 任务中表现显著提升，且不需要耗费大量篇幅调节参数。

Oct, 2018

RLEMMO：深度强化学习辅助的进化多模态优化

提出了 RLEMMO，一种元黑盒优化框架，通过维护解的群体并整合强化学习代理来灵活调整个体级搜索策略以匹配最新的优化状态，从而提高多模态优化问题的搜索性能。在 CEC2013 多模态优化问题基准测试上，RLEMMO 取得了与强基准模型相竞争的优化性能。

Apr, 2024

使用强化学习的受限组合优化

本文提出一个深度强化学习的框架来解决受限的组合优化问题，将受约束的组合问题定义为完全可观的受约束马尔可夫决策过程（CMDP），并提出从不满足的约束产生惩罚信号，以推断作为启发式算法的策略。通过对约束工厂和资源分配问题进行的实验表明，本文的提议对于比较经典的启发式算法、元启发式算法和约束编程（CP）求解器来说，能更快地求得答案。

Jun, 2020