诚实自博弈

ICLRJun, 2021

Truthful Self-Play

Shohei Ohsawa

TL;DR提出了一种基于进化学习的框架，利用机制设计中的对等预测方法添加虚拟奖励，使多智体强化学习任务中的智能体能够达成合作，从而实现了无偏见状态表示的学习。在猎食者 - 被猎物，红绿灯和星际争霸等任务中，框架的表现达到了最先进水平。

Abstract

We present a general framework for evolutionary learning to emergent unbiased state representation without any supervision. Evolutionary frameworks such as →

evolutionary learning state representation self-play multi-agent reinforcement learning mechanism design

发现论文，激发创造

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

不完美信息游戏中来自自我对弈的深度强化学习

本文介绍了一种可推广的终端到终端学习方法，结合了虚构自游戏和深度强化学习来学习近似 Nash 均衡。在 Leduc 扑克和真实规模的 Limit Texas Holdem 游戏中，NFSP 相比于传统强化学习方法，接近甚至超过了基于领域知识经验的超级算法。

Mar, 2016

空间囚徒困境博弈中的状态 - 动作 - 奖励 - 状态 - 动作算法

合作行为在人类社会和自然界中普遍存在，本研究使用强化学习中的 SARSA 算法来研究进化博弈论，评估其对合作率的影响。

Jun, 2024

游戏中的突变偏好学习

我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系，从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法，另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较，展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性，展示了在处理收敛性和可靠的推广问题时，动力系统视角对多智能体强化学习的普适性。

May, 2024

可证明自我对弈算法用于竞争性强化学习

研究自博弈算法在 Markov 游戏中的应用，提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法，并证明了其在策略最佳化中的有效性和高样本利用率。

Feb, 2020

竞技游戏离线虚构自我对弈

该研究介绍了 Off-FSP，这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互，学习最佳响应以及应用离线自我对弈学习框架，并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE)，在部分覆盖的真实世界数据集中，我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。

Feb, 2024

多智能体强化学习中以自我为本地对他人建模

本文提出了一种基于 Self Other-Modeling 的学习方法，用于解决多智能体强化学习中的信息不完全问题，并可用于解决合作和敌对情境下的任务。

Feb, 2018

廉价对话算法

我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为，显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略，从而在代理之间的利益冲突程度给出的前提下，按照 Nash 均衡预测发生最大程度的通信。我们发现这个结论在超参数和游戏的替代规范下是稳健的。我们讨论了对信息传输游戏中均衡选择理论、计算机科学中算法间新兴通信的作用以及市场中由人工智能代理人组成的勾结经济的影响。

Oct, 2023

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark，HSP 方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

提高群体诚实度的机制

本论文考虑如何设计一种激励机制，以在固有的逆向选择环境下，利用纯粹的协作或对抗以及报告代价获得真实从众意见汇报。

Jan, 2014