排序奖励：为组合优化实现自我对弈强化学习

Jul, 2018

排序奖励：为组合优化实现自我对弈强化学习

Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization

Alexandre Laterre, Yunguan Fu, Mohamed Khalil Jabri, Alain-Sam Cohen, David Kas...

TL;DR本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Abstract

adversarial self-play in two-player games has delivered impressive results when used with reinforcement learning algorithms that combine deep neural networks and tree search. Algorithms like AlphaZero and Expert

adversarial self-play reinforcement learning combinatorial optimization bin packing problems ranked reward algorithm

发现论文，激发创造

增强强化学习的量子启发式组合优化算法

本文提出了一种基于量子启发式算法 + 强化学习的方法，在解决 Ising 能量最小化问题方面，该方法通过调整其中一个参数以改进最近看到的解，并使用一种新的 Rescaled Rank Reward (R3) 方法来提高稳定的自我博弈训练效果。训练后可在任何问题实例中采样高质量的解，并优于基线启发式和黑盒超参数优化方法。

Feb, 2020

组合优化的强化学习：一项调查研究

本文综述了近期在强化学习领域中在解决组合优化问题方面的进展，包含了 RL 框架与传统算法的比较以及各方法解决不同问题的时间线，结果表明基于 RL 的模型成为解决组合问题的方向值得期待。

Mar, 2020

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024

可证明自我对弈算法用于竞争性强化学习

研究自博弈算法在 Markov 游戏中的应用，提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法，并证明了其在策略最佳化中的有效性和高样本利用率。

Feb, 2020

基于策略自竞争的规划问题解决方法

提出了 GAZ 'Play-to-Plan'（GAZ PTP）算法，并在两个组合优化问题，旅行商问题和工作车间调度问题上，表现出了比 GAZ 的单人游戏变体更好的效果，而且只需用一半的搜索模拟预算。

Jun, 2023

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

使用类 AlphaZero 排名奖励强化学习解决 Morpion Solitaire 问题

本文提出了一种基于深度自我学习强化学习方法的搜索算法，运用排名奖励的方法在较少的计算资源下找到了靠近人类最佳成绩的 Morpion Solitaire 解法，同时提出了进一步改进的方向。

Jun, 2020

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

使用自我博弈的近乎最优强化学习

本文提出了楽观的 Nash Q-learning 算法，并使用了新的 Nash V-learning 算法，解决了在马尔可夫博弈环境中的奖励学习优化问题，且这个算法的采样复杂度比现有算法还要低.

Jun, 2020