零样本组合强化学习环境生成

Jan, 2022

Environment Generation for Zero-Shot Compositional Reinforcement Learning

Izzeddin Gur, Natasha Jaques, Yingjie Miao, Jongwook Choi, Manoj Tiwari...

TL;DR通过训练生成器创建任务序列的自动课程表，以使强化学习代理能够完成复杂的组合任务，提高其健壮性和泛化能力，我们提出了一种名为 CoDE 的新算法，并对其进行了分析和评估

Abstract

Many real-world problems are compositional - solving them requires completing interdependent sub-tasks, either in series or in parallel, that can be represented as a dependency graph. deep reinforcement learning (RL) agents often struggle to learn such complex tasks due to the long tim

compositional tasks deep reinforcement learning automatic curriculum environment generation web navigation

发现论文，激发创造

使用强化学习进行视觉概念的组合学习

深度强化学习代理需要数百万次训练以解决与指令相关的导航任务，对于其泛化到新颖指令组合的能力还不清楚。然而，有趣的是，儿童能够将基于语言的指令分解并导航到所指对象，即使他们以前没有见过这种查询的组合。因此，我们创建了三个 3D 环境来研究深度强化学习代理如何学习和组合基于颜色和形状的组合指令来解决空间导航任务中的新颖组合。首先，我们探索代理是否能进行组合学习，并且它们是否可以利用冻结的文本编码器（例如 CLIP，BERT）在较少的训练次数内学习词组合。接下来，我们证明当代理在形状或颜色概念上预训练时，它们解决未见组合指令所需的训练次数减少了 20 倍。最后，我们展示了在概念和组合学习上进行预训练的代理在评估时的零样本状态下，对新的颜色 - 形状 1 - 形状 2 视觉对象组合获得了显著更高的奖励。总体而言，我们的结果凸显了通过强化学习增强代理组合词语的能力以及其对新组合的零样本泛化能力所需的基础。

Sep, 2023

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

用于离线组合强化学习的机器人操作数据集

本研究提供了四个来自 CompoSuite 的离线强化学习数据集，用于解决机器人操作的组合任务，评估表明组合方法比非组合方法优越，但当前方法仍无法提取任务的组合结构以推广到看不见的任务，需要进一步研究。

Jul, 2023

基于神经组合的模块化终身强化学习

本文提出了一种基于神经模块的组成式学习方式，探讨了在连续强化学习模型下的可重复利用子问题解决方案，并且通过离线重放经验保持表现以加速未来任务学习的累积神经组件复合持续强化学习方法。

Jul, 2022

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

CompoSuite：一款组合强化学习基准测试工具

本文介绍 CompoSuite，一个开源的模拟机器人操作基准测试，用于对复合多任务强化学习进行基准测试，评估现有单任务、多任务和组合学习算法在不同训练设置下的能力，并评估它们对未见任务的组成归纳能力，以此暴露现有 RL 方法在组合性方面存在的缺陷及问题。

Jul, 2022

语言作为层次深度强化学习的抽象

本文提出了使用语言作为抽象概念的层次强化学习方法，通过学习基本概念和子技能来解决时间延长的任务，构建了开源对象交互环境，证明了采用这种方法，代理可以从原始像素观察中学习解决多样化的任务，语言的组合性质使得学习多种子技能变得关键。

Jun, 2019

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023