利用程序生成技术评估强化学习

Dec, 2019

Leveraging Procedural Generation to Benchmark Reinforcement Learning

Karl Cobbe, Christopher Hesse, Jacob Hilton, John Schulman

TL;DRProcgen Benchmark 是一套 16 个生成环境的测试套件，旨在评估强化学习在样本效率和泛化性能方面的表现，为此提供了详细的实验协议，并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键，从而促进了生成内容的广泛使用。我们使用此基准测试来研究模型大小的影响，并发现大型模型显著提高了样本效率和泛化性能。

Abstract

We introduce procgen benchmark, a suite of 16 procedurally generated game-like environments designed to benchmark both sample efficiency and generalization in reinforcement learning. We believe that the community

procgen benchmark reinforcement learning procedural content generation scaling model size training environments

发现论文，激发创造

强化学习基准测试中的样本效率和泛化能力测量：NeurIPS 2020 Procgen 基准测试

NeurIPS 2020 Procgen 竞赛设计了一个集中式基准，用于度量增强学习中的样本效率和泛化性能，并通过对数千个用户提交的代码库的培训和展开阶段的端到端评估来帮助测量。本文介绍了竞赛的设置，以及在 2020 年度 NeurIPS 的竞赛中通过此设置确定的前几名解决方案的细节和分析。

Mar, 2021

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

基于强化学习的程序化内容生成 (PCGRL)

研究如何使用强化学习训练级别设计代理，将关卡设计视为游戏并将内容生成器本身学习，并探讨了三种不同的转换二维层次设计问题的马尔可夫决策过程，将其应用于三个游戏环境中。

Jan, 2020

C-Procgen: 控制上下文的 Procgen 强化

C-Procgen 是一个增强的环境套件，基于 Procgen 基准上构建，提供了 16 个游戏中超过 200 种独特的游戏环境。它允许详细配置环境，从游戏机制到代理属性，使得以前在 Procgen 中的程序生成过程更加透明和可适应各种研究需求。C-Procgen 的可控环境使其适用于强化学习研究的各个领域，如学习动态分析、课程学习和迁移学习。我们相信 C-Procgen 将填补当前文献中的空白，并为未来的研究提供一个有价值的工具包。

Nov, 2023

强化学习自然环境基准

本文提出了三类全新的强化学习基准测试领域，包含了一定数量的自然世界的复杂性，同时支持快速而广泛的数据采集，此举将挑战强化学习社区开发更加稳健的算法以满足高水准的评估要求。

Nov, 2018

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

RL-ViGen：一种用于视觉泛化的强化学习基准

Visual Reinforcement Learning 中的 generalization 问题是一个长期存在的挑战，该研究介绍了一个新的用于 Visual Generalization 的 Reinforcement Learning 基准测试框架（RL-ViGen），包含多样的任务和广泛的 generalization 类型，以便更可靠地评估 agent 的可视化 generalization 能力，并发现目前没有单一算法能够在所有任务中普遍占优势，旨在为未来创建适用于实际场景的通用视觉 generalization RL agent 奠定基础。

Jul, 2023

可控 3D 楼层生成器的学习

使用强化学习实现程序化内容生成（PCGRL），通过可计算、用户定义的质量度量训练智能体优化 3D 环境下针对 Minecraft 游戏的任务，生成多样化的游戏关卡，展示了 PCGRL 在 3D 环境下的应用和潜力。

Jun, 2022

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023