引领先锋: N 人对手塑形

Dec, 2023

Leading the Pack: N-player Opponent Shaping

Alexandra Souly, Timon Willi, Akbir Khan, Robert Kirk, Chris Lu...

TL;DR通过扩展对手塑形方法（OS）以适应涉及多个合作玩家和多个塑形代理的环境，我们评估了 4 个不同环境，并发现模型为基础的对手塑形方法相对于天真学习方法能够收敛到具有更好全局获益的均衡点，然而，当与大量合作玩家进行游戏时，对手塑形方法的相对性能会降低，这表明在极限情况下，对手塑形方法可能表现不佳，并且我们发现在需要大多数合作代理的游戏中，OS 方法收敛到全局福利较低的结果。

Abstract

reinforcement learning solutions have great success in the 2-player general sum setting. In this setting, the paradigm of opponent shaping (OS), in which agents account for the learning of their co-players, has l

reinforcement learning opponent shaping multiple co-players model-based methods global welfare

发现论文，激发创造

高维对手塑造的扩展

对于混合激励的多智能体环境中，通过学习对博弈对手产生影响的对手塑造方法，我们成功将其扩展到具有长期行动和长期视角的广义和博弈，提出了一个称为 Shaper 的简化版本，并证明 Shaper 在多种具有挑战性的环境中能够改善个体和整体的结果。

Dec, 2023

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

对手塑形的样本复杂度分析

对抗塑形方法 (opponent shaping) 在元博弈 (meta-game) 框架下，通过引导其他智能体的学习过程，在众多情境中提高了个体和团队的表现。作者提出 R-FOS 方法，将连续状态和动作空间的元博弈转化为表格形式，推导出一个与内部状态和动作空间的基数以及智能体数量指数相关的样本复杂度上界，保证 R-FOS 智能体所学习的最终策略与最优策略接近，除了一个常数因子外。此外，作者还探讨了 R-FOS 在状态 - 动作空间规模变化时的样本复杂度，并通过 Matching Pennies 环境的实证结果支持了理论上的扩展性。

Feb, 2024

无模型对手塑形

本文提出了一种名为 Model-Free Opponent Shaping（M-FOS）的方法，利用元学习在长周期博弈下进行对手塑造，解决通过算法塑造对手进行博弈中的困境，实验表明该方法在训练中充分利用其他算法，达到了社会最优结果，同时还能扩展到高维博弈场景。

May, 2022

多人不完美信息博弈中的贝叶斯对手建模

本研究探讨了面对多个对手的策略交互游戏，使用对手建模和观察对手策略等技术，超越纯理性策略的表现。

Dec, 2022

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020