对抗学习感知的学习

Sep, 2017

Learning with Opponent-Learning Awareness

Jakob N. Foerster, Richard Y. Chen, Maruan Al-Shedivat, Shimon Whiteson, Pieter Abbeel...

TL;DRLOLA 是一种用于多智能体学习的方法，在 agent 间显式地考虑其他 agent 的学习，以达到识别和利用合作的目的。

Abstract

multi-agent settings are quickly gathering importance in machine learning. This includes a plethora of recent work on deep multi-agent rei

multi-agent learning lola cooperation opponent modelling

发现论文，激发创造

具有对手学习意识的近端学习

本文提出 Learning With Opponent-Learning Awareness (LOLA) 的一个改进算法 —— 造假 LOLA（proximal LOLA，POLA），并证明其可在部分竞争性环境下更可靠地实现基于互惠的合作。

Oct, 2022

COLA: 具有对手感知的一致学习

通过在 LOLA 算法中引入一种方法称为 Consistent LOLA，其中学习更新功能在彼此影响时保持一致，作者在广义和游戏模型中进行了一系列实验，发现这种方法比 HOLA 和 LOLA 更容易收敛，并能够找到更加符合社会期望的解决方案。

Mar, 2022

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

LOQA：带有对手 Q 学习意识的学习

本文介绍了一种名为 LOQA 的分布式强化学习算法，用于在部分竞争环境中优化代理个体效用并促进对手之间的合作，在统一代理应用中取得了良好的性能。

May, 2024

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

无模型对手塑形

本文提出了一种名为 Model-Free Opponent Shaping（M-FOS）的方法，利用元学习在长周期博弈下进行对手塑造，解决通过算法塑造对手进行博弈中的困境，实验表明该方法在训练中充分利用其他算法，达到了社会最优结果，同时还能扩展到高维博弈场景。

May, 2022