通过对抗环境设计发现通用的强化学习算法

Oct, 2023

通过对抗环境设计发现通用的强化学习算法

Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design

Matthew Thomas Jackson, Minqi Jiang, Jack Parker-Holder, Risto Vuorio, Chris Lu...

TL;DR通过分析元训练分布的特征对学习策略的泛化性能的影响，并结合无监督环境设计的思想，提出一种通过环境设计获得的通用强化学习优化器的新方法（GROOVE），该方法在一系列实验中展现了优于现有算法的泛化能力，并将算法遗憾（AR）作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。

Abstract

The past decade has seen vast progress in deep reinforcement learning (RL) on the back of algorithms manually designed by human researchers. Recently, it has been shown that it is possible to meta-learn update rules, with the hope of discovering algorithms that can perform well on a wi

deep reinforcement learning meta-learning algorithmic regret environment design generalization

发现论文，激发创造

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

进化式强化学习算法

通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法，该方法可以广义地适用于训练中未看到的新环境，并能够从头开始学习和提高行业表现。

Jan, 2021

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

视觉元强化学习中泛化问题简述

该论文评估了特别设计用于泛化的算法 —— 元强化学习算法的泛化性能，发现在挑战性任务上，这些算法仍然存在严重的过拟合和扩展性问题，强调需要开发既能泛化又能扩展的元强化学习算法。

Jun, 2020

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

强化学习优化的学习

本篇文章研究了一种数据驱动的元学习方法，使用此方法可以训练出一个能够优化强化学习的通用优化器，而且可以应用于复杂任务。这个优化器的结构大大提高了学习优化器的训练效率，并且已经证明其能够泛化到未知的复杂任务。

Feb, 2023

利用学习目标改善元强化学习中的泛化能力

该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数，并可以推广到不同于元训练的新环境中发挥作用，具有大幅增加采样效率的离线二阶梯度。

Oct, 2019

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

发现最小的强化学习环境

通过元学习神经网络马尔可夫决策过程，我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力，并且发现上下文为基的赌博机能够实现良好的评估环境转移，从而加速下游应用。

Jun, 2024