统一分布式环境

May, 2022

Unified Distributed Environment

Woong Gyu La, Sunil Muralidhara, Lingjie Kong, Pratik Nichat

TL;DR该文讨论了 UDE 的组成部分和设计决策，它是一个用于强化学习研究的环境虚拟化工具包，可以将基于任何模拟平台的环境集成在一起，并支持多智能体环境下的训练。

Abstract

We propose unified distributed environment (UDE), an environment virtualization toolkit for reinforcement learning research. UDE is design

unified distributed environment virtualization reinforcement learning interface design multi-agent

发现论文，激发创造

基于生成轨迹建模的环境设计层次化方法

无监督环境设计（UED）是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP（马尔可夫决策过程）的新框架，通过指导学生的性能，上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED（Synthetically-enhanced Hierarchical Environment Design）显著减少了代理与环境之间资源密集型的交互，并证明了 SHED 的多种优势，以及它作为 UED 框架中的一种有效工具的效果。

Sep, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

自我对战中的多样性诱导环境设计

本文提出了一种多样性诱导的环境设计框架，将自适应课程学习与自我博弈相结合，以找到更加有效的不受监督的环境设计，取得了比现有方法更好的性能。

Feb, 2023

用学习对手稳定非监督环境设计

训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。

Aug, 2023

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

MAESTRO: 多智能体强化学习的开放环境设计

本文提出了 Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) 算法，该算法在多智能体环境中使用 Unsupervised Environment Design (UED) 生成敌对性的联合任务集，MAESTRO 在竞争性的两人游戏中，跨离散和连续控制环境优于其他基线方法，并在 Nash 均衡点上获得了最小化后悔的保证。

Mar, 2023

基于深度代理的环境生成

本论文介绍了一种深度代理辅助环境生成技术（DSAGE）, 该技术可以有效生成高质量、多样化的环境，以探索最先进的强化学习和规划代理的多样行为。

Jun, 2022

EduGym：强化学习教育环境套件

通过 EduGym 这一套教育性的强化学习环境和配套的交互式笔记本，该研究旨在帮助学生更好地理解强化学习的概念和实践，通过提供特定挑战方面的环境和解决方案，从而提高教学效果。

Nov, 2023