JaxUED：一个简单易用的 Jax UED 库

Mar, 2024

JaxUED: A simple and useable UED library in Jax

Samuel Coward, Michael Beukman, Jakob Foerster

TL;DRJaxUED 是一个开源库，提供现代无监督环境设计算法的最小依赖实现。JaxUED 利用硬件加速获得与基于 CPU 的实现相比高达 100 倍的加速。本文描述了我们的库并包含了基准结果。

Abstract

We present jaxued, an open-source library providing minimal dependency implementations of modern unsupervised environment design (UED) alg

jaxued open-source library unsupervised environment design hardware acceleration baseline results

发现论文，激发创造

JAX 中用于自学习任务的高效基线算法

无监督环境设计（UED）是一种自动课程学习的形式，用于训练强大的决策制定代理，使其能够在未知环境中进行零样本迁移。本研究介绍了用于加速硬件上的 UED 训练的 minimax 库，并利用 JAX 实现完全张量化的环境和自动课程算法，以便该训练循环可以进行硬件加速。minimax 包括基于 MiniGrid 的张量化网格世界，以及在生成过程中进行自动课程设计的可重复使用的抽象层，为快速实验提供了实验平台。该库提供了强大的基准模型，包括新的并行化变体，在训练过程中与相等批次大小相比，实现了超过 120 倍的加速。

Nov, 2023

统一分布式环境

该文讨论了 UDE 的组成部分和设计决策，它是一个用于强化学习研究的环境虚拟化工具包，可以将基于任何模拟平台的环境集成在一起，并支持多智能体环境下的训练。

May, 2022

基于生成轨迹建模的环境设计层次化方法

无监督环境设计（UED）是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP（马尔可夫决策过程）的新框架，通过指导学生的性能，上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED（Synthetically-enhanced Hierarchical Environment Design）显著减少了代理与环境之间资源密集型的交互，并证明了 SHED 的多种优势，以及它作为 UED 框架中的一种有效工具的效果。

Sep, 2023

用学习对手稳定非监督环境设计

训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。

Aug, 2023

一种准确的无监督方法用于联合实体对齐和悬挂实体检测

本文提出了一种新的精确的无监督方法，即 UED，用于联合实体对齐和悬挂实体检测，在医学跨语言知识图谱数据集 MedED 中通过全局指导对齐信息和文本语义信息来生成虚拟实体对，利用实体对齐结果辅助悬挂实体检测，无需 supervision，取得了非常好的实验结果。

Mar, 2022

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

QDax：一种质量多样性和基于群体的算法的硬件加速库

QDax 是一个开源库，具有简化且模块化的 API，用于 Quality-Diversity (QD) 优化算法在 Jax 中。该库可用于各种优化目的，从黑盒优化到连续控制。QDax 提供了流行的 QD、神经进化和增强学习算法的实现，支持各种示例。所有这些实现都可以使用 Jax 进行即时编译，以便在多个加速器（包括 GPU 和 TPU）上进行高效执行。这些实现有效地展示了该框架的灵活性和用户友好性，为研究目的简化了实验。此外，该库有详细的文档，并通过测试覆盖率达到 95%。

Aug, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

通用信息提取的统一结构生成

本文提出了一种名为 UIE 的统一文本到结构生成框架，可通用地模拟不同的信息提取任务，通过基于模式的指示器机制自适应生成目标结构，并通过大规模的预训练文本到结构模型捕捉共同的信息提取能力。实验结果显示，UIE 在四个 IE 任务、13 个数据集和不同的实验条件下实现了最先进的性能，验证了其有效性、通用性和可迁移性。

Mar, 2022

无监督环境设计中的随机不确定性建模

SAMLR 是一种适应性课程学习方法，可以在避免课程诱导的协变量漂移的情况下优化环境序列，保证在真实环境下最大化效用函数，实现强化学习中的最小后悔策略。

Jul, 2022