强化学习中自我对弈方法的综述

Aug, 2024

A Survey on Self-play Methods in Reinforcement Learning

Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu...

TL;DR本研究旨在填补自我对弈在强化学习中的应用与理论之间的空缺，提出了一个统一框架并对现有自我对弈算法进行了分类。通过展示自我对弈在不同场景中的作用，本文揭示了其实际应用的重要性，并指出开放的挑战和未来的研究方向。

Abstract

Self-play, characterized by agents' interactions with copies or past versions of itself, has recently gained prominence in Reinforcement Learning. This paper first clarifies the preliminaries of →

发现论文，激发创造

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为2和3的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

ELF Mini-RTS上的神经虚构自我对弈

本研究通过应用神经虚拟自我博弈（Neural Fictitious Self-Play，NFSP）和策略梯度强化学习方法，实现了在小型 RTS 游戏上寻找纳什均衡的目标，并且通过预先使用策略梯度自我博弈来预训练模型，成功提高 NFSP 的可扩展性。

Feb, 2019

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

可证明自我对弈算法用于竞争性强化学习

研究自博弈算法在Markov游戏中的应用，提出了Value Iteration with Upper/Lower Confidence Bound (VI-ULCB)算法和探索-开采算法，并证明了其在策略最佳化中的有效性和高样本利用率。

Feb, 2020

零样本协调的“其他-玩耍

本文探讨了如何通过使用other-play算法增强self-play算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以Hanabi卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

使用自我博弈的近乎最优强化学习

本文提出了楽观的Nash Q-learning算法，并使用了新的Nash V-learning算法，解决了在马尔可夫博弈环境中的奖励学习优化问题，且这个算法的采样复杂度比现有算法还要低.

Jun, 2020

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零-shot学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估Overcooked benchmark，HSP方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

基于人群自我对弈学习多样化风险偏好

本研究从风险偏好角度设计出一种名为RPPO的新型强化学习算法，通过与不同对手对局的经验，使代理进行动态风险敏感的目标优化，从而增加自我玩耍算法的多样性，并在竞争性游戏中获得可比或更优越的性能表现。

May, 2023

人工智能与人类合作的多元规范

通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法，我们的技术在多代理合作游戏中生成多样化的约定，以适应人类的约定，并在与真实用户配对时超越人类水平的性能。

Oct, 2023