深度强化学习中的对手建模

ICMLSep, 2016

Opponent Modeling in Deep Reinforcement Learning

He He, Jordan Boyd-Graber, Kevin Kwok, Hal Daumé III

TL;DR本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Abstract

opponent modeling is necessary in multi-agent settings where secondary agents with competing goals also adapt their strategies, yet it remains challenging because strategies interact with each other and change. M

opponent modeling multi-agent settings deep reinforcement learning mixture-of-experts architecture simulated soccer game

发现论文，激发创造

对手建模中的双重深度 Q 学习

本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略，并通过对手建模架构识别不同的对手策略模式，最终在两个环境下分析了我们的模型，研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。

Nov, 2022

多智能体系统中对手建模的变分自编码器

本研究使用变分自编码器对多智能体系统中特定行为进行对手建模，以及提出了一种使用局部信息来识别对手模型的方法，结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。

Jan, 2020

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

基于模型的对手建模

本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。

Aug, 2021

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

使用虚拟对手模型进行决策

提出了一种基于分布式 Actor-Critic 算法的多智能体虚拟对手建模方法，通过构建虚拟模型来模拟未观察到对手的行为，使用本地可得信息实现虚拟对手模型的训练和优化。实验证明该方法能有效准确地模拟对手行为，相较于基线方法具有更快的收敛速度并显著提升了性能表现。

Nov, 2022

多人不完美信息博弈中的贝叶斯对手建模

本研究探讨了面对多个对手的策略交互游戏，使用对手建模和观察对手策略等技术，超越纯理性策略的表现。

Dec, 2022

深度强化学习下的多智能体合作与竞争

本文探讨了如何在多智能体环境下，运用扩展后的 Deep Q-Learning Network，使两个由独立的 Deep Q-Networks 控制的 agents，相互作用以玩经典的电子游戏乒乓球，以及通过改变 Pong 经典奖励方案，演示出竞争和合作性行为的出现。研究表明 Deep Q-Networks 可以成为在高度复杂环境中研究分散式学习的多智能体系统的实用工具。

Nov, 2015

独立学习个性化竞争行为的对比强化学习优化

在这篇论文中，我们提出了一个由三个神经层组成的新颖模型，用于学习竞争性游戏的表示、对特定对手策略的映射以及如何打乱对手。通过在线训练和对比优化的组合损失，我们的模型在 Pokemon 对战和四人竞技帽子师傅卡牌游戏中取得了较好的性能，尤其是在多次对战同一对手时。我们还对模型的影响进行了讨论，尤其是在对这两种情况下的具体策略学习方面的表现。

Oct, 2023