通过在非有奖励的环境中最大化抽象表示空间中的非参数熵,APT 探索了环境,从而避免了具有挑战性的密度建模,并且在具有高维观察的环境中表现出色。在 Atari 游戏中,APT 在 12 种游戏上取得人类水平的性能,并且相对于经典的全监督 RL 算法具有高竞争性的表现。在 DMControl 套件中,APT 在渐进性能和数据效率方面击败了所有基线,并显着提高了初学者难以从头开始培训的任务性能。
Mar, 2021
提出了一种基于 Adversarial training 的方法,用于 Reinforcement learning 中任务发现的问题,可以实现在不需要任何先验环境知识的情况下,对多元化任务的高效自动学习,并且能够解决传统上存在的稀疏奖励问题。
May, 2017
本研究提出了主动任务随机化(ATR)的方法,通过自动创建合理而新颖的任务,学习了一种适用于顺序操作的视觉运动技能,证明了这种方法比基线方法效果更好。
Nov, 2022
Procgen Benchmark 是一套 16 个生成环境的测试套件,旨在评估强化学习在样本效率和泛化性能方面的表现,为此提供了详细的实验协议,并经验证明多样性的环境分布是充分训练和评估 RL agent 的关键,从而促进了生成内容的广泛使用。我们使用此基准测试来研究模型大小的影响,并发现大型模型显著提高了样本效率和泛化性能。
Dec, 2019
通过生成仿真系统,RoboGen 是一种生成式机器人代理,可以自动学习各种机器人技能,从而规模化地进行机器人技能学习,减少人类监督。
Nov, 2023
介绍了一种名为 SafeAPT 的学习算法,它使用仿真实验学习的策略并将其安全地迁移到实际机器人中,通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型,并使用仿真经验作为先验,在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验,显示 SafeAPT 能够在短时间内找到高性能策略并在交互期间最小化安全违规。
Jan, 2022
通过生成模型学习工具使用轨迹和对应工具位姿的序列,以实现对变形物体的操纵,进而提高自治系统在常见任务(如烹饪和清洁)中的智能水平。
Sep, 2023
本篇论文介绍了一种创新方法,PCGPT 框架,该方法利用离线强化学习和 Transformer 网络进行程序化内容生成(PCG)。PCGPT 利用基于 Transformer 的自回归模型迭代生成游戏关卡,解决了传统 PCG 方法中重复、可预测或不一致的内容的挑战。该框架模拟动作、状态和奖励的轨迹,利用 Transformer 的自注意机制捕捉时间依赖性和因果关系。该方法在 Sokoban 益智游戏中进行了评估,模型预测了所需物品及其对应位置。Sokoban 游戏的实验结果表明,PCGPT 生成了更复杂和多样化的游戏内容。有趣的是,与现有方法相比,PCGPT 在显著较少的步骤中实现了这些结果,展示了其增强游戏设计和在线内容生成的潜力。我们的模型代表了一种超越以往方法的新的 PCG 范例。
Oct, 2023
本文提出了一种名为任务不可知学习方法(TAL)的学习方法,该方法可从任务不可知数据中学习碎片化知识以完成新任务,TAL 由四个阶段组成:任务不可知探索,知识图表组织,动作特征提取,候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明,它的性能优于当前的强化学习和模仿学习算法。
Sep, 2022
该论文介绍了一种用于 ARC 训练任务的代码,通过采样从原始示例集中生成尽可能多样化的示例,使得研究者能够进行多样性实验,以对该基准进行改进。
Apr, 2024