MAESTRO: 多智能体强化学习的开放环境设计

ICLRMar, 2023

MAESTRO: 多智能体强化学习的开放环境设计

MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement Learning

Mikayel Samvelyan, Akbir Khan, Michael Dennis, Minqi Jiang, Jack Parker-Holder...

TL;DR本文提出了 Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) 算法，该算法在多智能体环境中使用 Unsupervised Environment Design (UED) 生成敌对性的联合任务集，MAESTRO 在竞争性的两人游戏中，跨离散和连续控制环境优于其他基线方法，并在 Nash 均衡点上获得了最小化后悔的保证。

Abstract

open-ended learning methods that automatically generate a curriculum of increasingly challenging tasks serve as a promising avenue toward generally capable reinforcement learning agents. Existing methods adapt cu

open-ended learning reinforcement learning agents curriculum generation multi-agent environments maestro

发现论文，激发创造

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

用学习对手稳定非监督环境设计

训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。

Aug, 2023

基于生成轨迹建模的环境设计层次化方法

无监督环境设计（UED）是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP（马尔可夫决策过程）的新框架，通过指导学生的性能，上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED（Synthetically-enhanced Hierarchical Environment Design）显著减少了代理与环境之间资源密集型的交互，并证明了 SHED 的多种优势，以及它作为 UED 框架中的一种有效工具的效果。

Sep, 2023

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

开放式学习导致通用能力的代理

本文介绍了一种基于多智能体、开放式学习的方法，其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙，我们的训练代理能够跨越更广泛的任务领域，这个领域自然多智能体，涉及合作竞争等多种类型的游戏，而这一领域的挑战对于智能体来说多种多样，因此，我们提出了一种迭代方法来改进代理的效果，而不是试图最大化一个单一目标。最终，我们证明了这种代理的通用能力，可以通过简单的微调实现更大规模的行为传递。

Jul, 2021

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023

多模态环境不确定性下使用课程学习提高多智能体强健性

该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作，并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法，通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。

Oct, 2023

从分散的元强化学习中出现集体开放性探索

我们在开放式任务分布上通过元强化学习以及分散训练，探究了集体探索策略的产生，发现去中心化的智能体在对抗从五种不同类型任务中抽取出的多个子任务动态组成的大量任务树时，表现出了强大的泛化能力，能够解决训练过程中从未遇到的新任务，并且这种集体探索策略的学习在开放式任务设置下得以扩展，让智能体能够解决比训练过程中多两倍深度的任务树。

Nov, 2023