适应性程序化任务生成用于难探索问题

ICLRJul, 2020

适应性程序化任务生成用于难探索问题

Adaptive Procedural Task Generation for Hard-Exploration Problems

Kuan Fang, Yuke Zhu, Silvio Savarese, Li Fei-Fei

TL;DR本文介绍了一种自适应过程任务生成方法（APT-Gen），它通过生成具有丰富变化的适当任务生成优于现有基准测试的结果，以在强化学习中逐步生成一系列任务作为课程。

Abstract

We introduce adaptive procedural task generation (APT-Gen), an approach to progressively generate a sequence of tasks as curricula to facilitate reinforcement learning in hard-exploration problems. At the heart o

adaptive procedural task generation curriculum learning reinforcement learning task generator adversarial training

发现论文，激发创造

虚空中的行为：无监督主动预训练

通过在非有奖励的环境中最大化抽象表示空间中的非参数熵，APT 探索了环境，从而避免了具有挑战性的密度建模，并且在具有高维观察的环境中表现出色。在 Atari 游戏中，APT 在 12 种游戏上取得人类水平的性能，并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中，APT 在渐进性能和数据效率方面击败了所有基线，并显着提高了初学者难以从头开始培训的任务性能。

Mar, 2021

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

主动任务随机化：提出可行且新颖的任务以学习序列操作的视觉动作技能

本研究提出了主动任务随机化（ATR）的方法，通过自动创建合理而新颖的任务，学习了一种适用于顺序操作的视觉运动技能，证明了这种方法比基线方法效果更好。

Nov, 2022

利用程序生成技术评估强化学习

Procgen Benchmark 是一套 16 个生成环境的测试套件，旨在评估强化学习在样本效率和泛化性能方面的表现，为此提供了详细的实验协议，并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键，从而促进了生成内容的广泛使用。我们使用此基准测试来研究模型大小的影响，并发现大型模型显著提高了样本效率和泛化性能。

Dec, 2019

RoboGen: 通过生成式模拟释放无限数据用于自动化机器人学习

通过生成仿真系统，RoboGen 是一种生成式机器人代理，可以自动学习各种机器人技能，从而规模化地进行机器人技能学习，减少人类监督。

Nov, 2023

SafeAPT：使用在模拟器中学得的多样策略的安全模拟 - 真实机器人学习

介绍了一种名为 SafeAPT 的学习算法，它使用仿真实验学习的策略并将其安全地迁移到实际机器人中，通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型，并使用仿真经验作为先验，在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验，显示 SafeAPT 能够在短时间内找到高性能策略并在交互期间最小化安全违规。

Jan, 2022

通过轨迹生成学习通用工具使用技能

通过生成模型学习工具使用轨迹和对应工具位姿的序列，以实现对变形物体的操纵，进而提高自治系统在常见任务（如烹饪和清洁）中的智能水平。

Sep, 2023

PCGPT：基于 Transformer 的程序化内容生成

本篇论文介绍了一种创新方法，PCGPT 框架，该方法利用离线强化学习和 Transformer 网络进行程序化内容生成（PCG）。PCGPT 利用基于 Transformer 的自回归模型迭代生成游戏关卡，解决了传统 PCG 方法中重复、可预测或不一致的内容的挑战。该框架模拟动作、状态和奖励的轨迹，利用 Transformer 的自注意机制捕捉时间依赖性和因果关系。该方法在 Sokoban 益智游戏中进行了评估，模型预测了所需物品及其对应位置。Sokoban 游戏的实验结果表明，PCGPT 生成了更复杂和多样化的游戏内容。有趣的是，与现有方法相比，PCGPT 在显著较少的步骤中实现了这些结果，展示了其增强游戏设计和在线内容生成的潜力。我们的模型代表了一种超越以往方法的新的 PCG 范例。

Oct, 2023

无任务先验学习实现新任务

本文提出了一种名为任务不可知学习方法（TAL）的学习方法，该方法可从任务不可知数据中学习碎片化知识以完成新任务，TAL 由四个阶段组成：任务不可知探索，知识图表组织，动作特征提取，候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明，它的性能优于当前的强化学习和模仿学习算法。

Sep, 2022

通过生成程序示例来解决抽象推理语料库

该论文介绍了一种用于 ARC 训练任务的代码，通过采样从原始示例集中生成尽可能多样化的示例，使得研究者能够进行多样性实验，以对该基准进行改进。

Apr, 2024