了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

May, 2023

了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent Models in Pommerman

Jannis Weil, Johannes Czech, Tobias Meuser, Kristian Kersting

TL;DR本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

Abstract

In combination with reinforcement learning, monte-carlo tree search has shown to outperform human grandmasters in games such as Chess, Shogi and Go with little to no prior domain knowledge. However, most classica

reinforcement learning monte-carlo tree search multiplayer games opponent modeling pommerman environment

发现论文，激发创造

Pommerman 多智能体训练：课程学习与基于人口自我对弈的方法

该研究介绍了一个使用课程学习和基于群体的自我对弈相结合的系统，用于训练多智能体系统玩 Pommerman，并解决了稀疏奖励和合适匹配机制的两个挑战性问题。实验结果表明，我们训练的智能体可以在不需要盟友间通信的情况下胜过顶尖的学习智能体。

Jun, 2024

多人不完美信息博弈中的贝叶斯对手建模

本研究探讨了面对多个对手的策略交互游戏，使用对手建模和观察对手策略等技术，超越纯理性策略的表现。

Dec, 2022

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

关于强化学习中的困难探索：Pommerman 的案例研究

本研究研究了如何在具有稀疏、延迟和欺骗性回报的域中进行最佳探索，通过分析 Pommerman 的难度，提出了一种基于模型的自动推理模块，可以用于更安全的探索，通过实验证明了该模块可以显著提高学习效果。

Jul, 2019

Pommerman: 多智能体游戏场

本文介绍了基于经典掌机游戏 Bomberman 的多智能体环境 Pommerman，Pommerman 包含多个场景，每个场景至少有四名玩家，包括合作和竞争方面，Pommerman 可以作为多智能体基准测试，需要涉及策划、对手 / 队友建模、博弈论和交流等多种工具和方法，作者已经举办了一次比赛，并将在 NIPS 2018 比赛上继续推出下一次比赛。

Sep, 2018

通过分层对手建模和规划在混合动机环境中实现高效适应

基于 Hierarchical Opponent Modeling and Planning (HOP) 算法的多智能体强化学习能够在混合动机环境中实现对未知策略的少样本适应，并显示出在不同未知对手和自对弈场景中优越的适应能力，同时在复杂多智能体环境中表现出社交智能的潜力。

Jun, 2024

透明对手之间的双人游戏学习

本文以两个强化学习代理经常在矩阵游戏中相互博弈作为情境，考虑透明性决策制定对于对手的预测及对手感知梯度步长能力，探究透明性决策制定与对手感知学习相结合能否在囚徒困境和鸡斗中取得可接受的收益等问题，发现透明性决策制定和对手感知学习的组合能对囚徒困境中的双方达成互惠合作。而在鸡斗场景中，由于平衡点的选择问题，需要进一步开发适合的对手感知学习算法。

Dec, 2020