高维对手塑造的扩展

Dec, 2023

Scaling Opponent Shaping to High Dimensional Games

Akbir Khan, Timon Willi, Newton Kwan, Andrea Tacchetti, Chris Lu...

TL;DR对于混合激励的多智能体环境中，通过学习对博弈对手产生影响的对手塑造方法，我们成功将其扩展到具有长期行动和长期视角的广义和博弈，提出了一个称为 Shaper 的简化版本，并证明 Shaper 在多种具有挑战性的环境中能够改善个体和整体的结果。

Abstract

In multi-agent settings with mixed incentives, methods developed for zero-sum games have been shown to lead to detrimental outcomes. To address this issue, opponent shaping (OS) methods explicitly learn to influence the learning dynamics of co-players and empirically lead to improved i

opponent shaping meta-learning general-sum games temporally-extended actions collective outcomes

发现论文，激发创造

引领先锋: N 人对手塑形

通过扩展对手塑形方法（OS）以适应涉及多个合作玩家和多个塑形代理的环境，我们评估了 4 个不同环境，并发现模型为基础的对手塑形方法相对于天真学习方法能够收敛到具有更好全局获益的均衡点，然而，当与大量合作玩家进行游戏时，对手塑形方法的相对性能会降低，这表明在极限情况下，对手塑形方法可能表现不佳，并且我们发现在需要大多数合作代理的游戏中，OS 方法收敛到全局福利较低的结果。

Dec, 2023

对手塑形的样本复杂度分析

对抗塑形方法 (opponent shaping) 在元博弈 (meta-game) 框架下，通过引导其他智能体的学习过程，在众多情境中提高了个体和团队的表现。作者提出 R-FOS 方法，将连续状态和动作空间的元博弈转化为表格形式，推导出一个与内部状态和动作空间的基数以及智能体数量指数相关的样本复杂度上界，保证 R-FOS 智能体所学习的最终策略与最优策略接近，除了一个常数因子外。此外，作者还探讨了 R-FOS 在状态 - 动作空间规模变化时的样本复杂度，并通过 Matching Pennies 环境的实证结果支持了理论上的扩展性。

Feb, 2024

无模型对手塑形

本文提出了一种名为 Model-Free Opponent Shaping（M-FOS）的方法，利用元学习在长周期博弈下进行对手塑造，解决通过算法塑造对手进行博弈中的困境，实验表明该方法在训练中充分利用其他算法，达到了社会最优结果，同时还能扩展到高维博弈场景。

May, 2022

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

双人零和博弈中智能体理性的大规模学习

这篇论文介绍了一种应用于实际情境下的框架，用于推断底层博弈参数，其中包括了基于决策理论的行为模型，用于学习复杂博弈中有理智的行为，并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。

Mar, 2019

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

COLA: 具有对手感知的一致学习

通过在 LOLA 算法中引入一种方法称为 Consistent LOLA，其中学习更新功能在彼此影响时保持一致，作者在广义和游戏模型中进行了一系列实验，发现这种方法比 HOLA 和 LOLA 更容易收敛，并能够找到更加符合社会期望的解决方案。

Mar, 2022

最佳响应塑造

在部分竞争环境中，我们研究了多智能体深度强化学习的挑战，传统方法难以促进基于互惠合作的行为。为解决现有技术中的局限性，我们提出了一种新的方法 —— 最佳回应塑造（BRS），通过对手的求解最佳回应进行差分学习。利用基于问题回答的方法提取智能体在特定环境状态下的行为表示，引入了一种能够对复杂博弈中的智能体策略进行状态感知可微的条件机制。通过实验证明了我们的方法在与蒙特卡洛树搜索对手（在 Coin Game 中近似最佳回应）对抗时具有更好的性能，从而拓展了部分竞争环境中多智能体强化学习的适用性，并为实现总和博弈中社会福利的改善提供了新的路径。

Apr, 2024

了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

May, 2023

多智能体学习的通用训练方法

本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕（PSRO），并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank，在一些游戏分类中建立了收敛保证，并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明，基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。

Sep, 2019