对手学习建模的学习

AAAIJun, 2020

Learning to Model Opponent Learning

Ian Davies, Zheng Tian, Jun Wang

TL;DR提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Abstract

multi-agent reinforcement learning (MARL) considers settings in which a set of coexisting agents interact with one another and their environment. The adaptation and learning of other agents induces non-stationarity

multi-agent reinforcement learning non-stationarity opponent modelling learning dynamics policy training

发现论文，激发创造

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

基于模型的对手建模

本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。

Aug, 2021

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

基于模型的多智能体策略优化与对手智能化决策

本文研究了多智能体强化学习中的基于模型的方法，提出了自适应对手推演策略优化（AORPO）的分散化的基于模型的 MARL 方法，旨在全过程中降低样本复杂度，并在竞争和合作任务中开展实证研究，表明 AORPO 能够实现比对比 MARL 方法更好的样本效率和相似的渐近性能。

May, 2021

对抗学习感知的学习

LOLA 是一种用于多智能体学习的方法，在 agent 间显式地考虑其他 agent 的学习，以达到识别和利用合作的目的。

Sep, 2017

多智能体系统中对手建模的变分自编码器

本研究使用变分自编码器对多智能体系统中特定行为进行对手建模，以及提出了一种使用局部信息来识别对手模型的方法，结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。

Jan, 2020

MalmÖ 中的多智能体强化学习（MARLÖ）竞赛

该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛，它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念，并建议作为人工智能通用智能方向的一个里程碑挑战。

Jan, 2019

带最大熵目标的正则对手模型

本研究在多智能体环境下，重新定义二元随机变量 $o$ 并将多智能体强化学习形式化为概率推理。我们提出了一种名为 ROMMEO 的正则对手模型最大熵目标的变分下界，并从中展示了一种对手建模的新方法，理论和实证地证明其在协作游戏中可以提高训练智能体的性能。我们引入了一种名为 ROMMEO-Q 的表格 Q 迭代方法，并将其扩展为复杂环境下的 ROMMEO-AC 的近似版本，我们在挑战性的迭代矩阵游戏和微分游戏上评估了这两种算法，证明它们可以胜过强的多智能体强化学习基线。

May, 2019

多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别

在多智能体强化学习中，准确地感知对手策略对于合作和对抗环境都是必不可少的，本文提出了一种在线算法 OPS-DeMo，通过使用动态误差衰减来检测对手策略的变化，并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练，相较于 PPO，在动态情景下表现更出色，提供更强的鲁棒性和更准确的对手策略洞察。

Jun, 2024

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022