透明对手之间的双人游戏学习

Dec, 2020

Learning in two-player games between transparent opponents

Adrian Hutter

TL;DR本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Abstract

We consider a scenario in which two reinforcement learning agents repeatedly play a matrix game against each other and update their parameters after each round. The agents' decision-making is transparent to each

reinforcement learning matrix game opponent-aware learning mutual cooperation equilibrium selection

发现论文，激发创造

对抗学习感知的学习

LOLA 是一种用于多智能体学习的方法，在 agent 间显式地考虑其他 agent 的学习，以达到识别和利用合作的目的。

Sep, 2017

基于相似性的合作

介绍了一个更加现实的设置，其中智能体只能观察到一个表明它们相似程度的数字，证明这与完全透明的情况能够产生相同的合作结果，同时还证明了可以使用简单的机器学习方法学习合作。

Nov, 2022

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

LOQA：带有对手 Q 学习意识的学习

本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

May, 2024

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

关于在重复博弈中无法学习适应性合作策略的问题

本研究旨在了解在没有特定假设的情况下，我们是否能可靠地学会与其他具有自适应行为的智能体合作，并得出一组不可能性结果，表明即使智能体保证与某些固定策略合作，也没有学习算法可以可靠地学习如何与所有可能的自适应伙伴合作；随后讨论了捕捉自适应伙伴只会理性地适应我们行为的潜在替代假设。

Jun, 2022

对抗对手下的学习马尔科夫博弈：高效算法与基本极限

本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题，并给出了一组正负结果，其中提出的新算法在普通的策略类别小或对手策略类别小时，可取得平均的 regret 较小的结果。

Mar, 2022

了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

May, 2023