Pommerman 多智能体训练：课程学习与基于人口自我对弈的方法

IJCAIJun, 2024

Pommerman 多智能体训练：课程学习与基于人口自我对弈的方法

Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach

Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu

TL;DR该研究介绍了一个使用课程学习和基于群体的自我对弈相结合的系统，用于训练多智能体系统玩 Pommerman，并解决了稀疏奖励和合适匹配机制的两个挑战性问题。实验结果表明，我们训练的智能体可以在不需要盟友间通信的情况下胜过顶尖的学习智能体。

Abstract

pommerman is a multi-agent environment that has received considerable attention from researchers in recent years. This environment is an ideal benchmark for multi-agent training, providing a battleground for two

pommerman multi-agent training reinforcement learning curriculum learning matchmaking mechanism

发现论文，激发创造

Pommerman: 多智能体游戏场

本文介绍了基于经典掌机游戏 Bomberman 的多智能体环境 Pommerman，Pommerman 包含多个场景，每个场景至少有四名玩家，包括合作和竞争方面，Pommerman 可以作为多智能体基准测试，需要涉及策划、对手 / 队友建模、博弈论和交流等多种工具和方法，作者已经举办了一次比赛，并将在 NIPS 2018 比赛上继续推出下一次比赛。

Sep, 2018

关于强化学习中的困难探索：Pommerman 的案例研究

本研究研究了如何在具有稀疏、延迟和欺骗性回报的域中进行最佳探索，通过分析 Pommerman 的难度，提出了一种基于模型的自动推理模块，可以用于更安全的探索，通过实验证明了该模块可以显著提高学习效果。

Jul, 2019

Skynet：Pommerman 首届团队大赛中顶尖的 Deep RL Agent

本文介绍了在 Pommerman Team Environment 中使用深度强化学习算法、奖励塑形、课程学习以及自动推理模块等概念训练的两个神经网络，以及开放源代码的智能体，这些是在 NeurIPS 2018 的 Pommerman Team 比赛中获得 “学习智能体” 类别第二名的 nn_team_skynet955_skynet955 队伍的关键因素。

Apr, 2019

使用浅层 MCTS 增强 Pommerman 中的深度 RL 安全性探究

本文研究如何使用非专业演示者的行动指导来避免稀疏、延迟和具有欺骗性的奖励域中的灾难性事件，并提出了一种新的框架将计划算法与异步分布式深度强化学习方法相结合，相比传统的深度强化学习算法，提高了学习速度并收敛到更好的策略。

Apr, 2019

了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

May, 2023

基于 MCTS 的深度强化学习的行动指导

本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架，可以在异步分布式深度强化学习方法中集成非专家演示者，即使用 Monte Carlo 树搜索等策略算法，并以两种玩家为例进行测试，相较于纯粹的深度强化学习算法，我们的提出的方法可以更快地学习，并收敛于更好的策略。

Jul, 2019

面向多智体强化学习的熟练人口课程

该论文介绍了一种名为 SPC 的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了 MARL 环境下的性能、可伸缩性和样本效率。

Feb, 2023

多智能体竞争引发的紧急复杂性

本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法，这些方法可以训练出丰富多彩、技能复杂的智能体。此外，我们指出，自我对抗训练可以产生超出环境本身复杂性的行为，并且自带课程设置，有助于智能体学习不同难度水平下的技能。

Oct, 2017

通过难度条件生成器可转移课程

该论文介绍了一种名为参数化环境响应模型（PERM）的方法，该方法可以根据学生的当前能力将环境的难度匹配到一个合适的 “接受挑战的区域”，以提高训练效率和知识传输，并且 PERM 可以在离线上进行培训，适用于学生之间的传输。

Jun, 2023

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习 (Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022