无监督环境设计中的随机不确定性建模

Jul, 2022

无监督环境设计中的随机不确定性建模

Grounding Aleatoric Uncertainty for Unsupervised Environment Design

Minqi Jiang, Michael Dennis, Jack Parker-Holder, Andrei Lupu, Heinrich Küttler...

TL;DRSAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Abstract

adaptive curricula in reinforcement learning (RL) have proven effective for producing policies robust to discrepancies between the train and test environment. Recently, the →

adaptive curricula reinforcement learning unsupervised environment design curriculum-induced covariate shift minimax regret

发现论文，激发创造

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

CLUTR: 通过无监督任务表示学习进行课程学习

介绍了 CLUTR：一种新型的无监督课程学习算法，通过将任务表示和课程学习分解成两个阶段的优化，成功地克服了任务分布不稳定性的问题，提高了稳定性，并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。

Oct, 2022

ICED：通过上下文环境设计在强化学习中实现零 - shot 转移

通过对深度强化学习的自主代理进行研究，发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息，提出了一种新的理论解释适应性采样策略的合理性；另外，引入了上下文环境设计（ICED）方法，通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成，减少数据偏差，并在零样本泛化性上取得显著改进。

Feb, 2024

用学习对手稳定非监督环境设计

训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。

Aug, 2023

JAX 中用于自学习任务的高效基线算法

无监督环境设计（UED）是一种自动课程学习的形式，用于训练强大的决策制定代理，使其能够在未知环境中进行零样本迁移。本研究介绍了用于加速硬件上的 UED 训练的 minimax 库，并利用 JAX 实现完全张量化的环境和自动课程算法，以便该训练循环可以进行硬件加速。minimax 包括基于 MiniGrid 的张量化网格世界，以及在生成过程中进行自动课程设计的可重复使用的抽象层，为快速实验提供了实验平台。该库提供了强大的基准模型，包括新的并行化变体，在训练过程中与相等批次大小相比，实现了超过 120 倍的加速。

Nov, 2023

通过对抗环境设计发现通用的强化学习算法

通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Oct, 2023

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

基于生成轨迹建模的环境设计层次化方法

无监督环境设计（UED）是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP（马尔可夫决策过程）的新框架，通过指导学生的性能，上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED（Synthetically-enhanced Hierarchical Environment Design）显著减少了代理与环境之间资源密集型的交互，并证明了 SHED 的多种优势，以及它作为 UED 框架中的一种有效工具的效果。

Sep, 2023