样本工厂：使用异步强化学习从像素级别的100000FPS中进行自我中心的三维控制

Jun, 2020

样本工厂：使用异步强化学习从像素级别的100000FPS中进行自我中心的三维控制

Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with Asynchronous Reinforcement Learning

Aleksei Petrenko, Zhehui Huang, Tushar Kumar, Gaurav Sukhatme, Vladlen Koltun

TL;DR本研究旨在通过优化增强学习算法的效率和资源利用率来解决大规模分布式计算的成本限制问题，通过异步、基于GPU的采样器和异策略校正技术，我们提出了“Sample Factory”，该系统在一个单一机器设置中能够获得高通量的训练，支持自我博弈和基于群体的训练，并应用于多人第一人称射击游戏的训练中。

Abstract

Increasing the scale of reinforcement learning experiments has allowed researchers to achieve unprecedented results in both training sophisticated agents for video games, and in sim-to-real transfer for robotics. Typically such experiments rely on large distributed systems and require

发现论文，激发创造

使用深度强化学习玩射击游戏

本研究提出了一种融合游戏特征信息的深度强化学习神经网络模型，其能够在处理3D FPS游戏的部分可观察状态下显著提高训练效率和性能。

Sep, 2016

Obstacle Tower: 视觉、控制和规划的泛化挑战

该研究提出了新的人工智能基准测试环境——障碍塔，通过该环境智能体必须学会解决低级控制和高级规划问题，同时学习像素和稀疏奖励信号。除了评估环境外，还要评估智能体在未见环境中的表现，已有的深度强化学习方法和人类玩家的基线实验结果表明，这些算法无法产生接近人类水平的智能体。

Feb, 2019

深度强化学习在预算内的应用: 3D控制和推理无需超级计算机

本文介绍了使用简化的三维环境(ViZDoom)训练智能体进行复杂推理和探索的基准方案，以提高Deep-RL领域的可访问性和减少对大量计算资源的需求。

Apr, 2019

MineRL 2019赛事：基于人类先验知识的高效强化学习

介绍了MineRL竞赛，该竞赛旨在利用人类先验知识实现样本高效的强化学习，提供了Minecraft ObtrainDiamond任务和MineRL-v0数据集，并要求参赛者使用Malmo环境中的有限样本来解决ObtainDiamond任务。

Apr, 2019

深度强化学习大批量模拟

该论文在复杂的3D环境中，通过设计以“batch simulation”为原则的3D渲染器和模拟器来加速基于深度强化学习的训练，使用单个GPU每秒获得超过19,000帧的经验，并在单个8-GPU机器上每秒获得最高达72,000帧的经验，同时维持任务的高性能并通过增加大型mini-batches的样本效率, 在1.5天内使用单个GPU训练PointGoal导航代理以达到64-GPU集群上训练的代理的97％准确度。

Mar, 2021

Megaverse: 以每秒一百万体验模拟具身代理

Megaverse是一个新的3D模拟平台，可用于强化学习和具身智能研究，其高效的引擎设计可以在单个8-GPU节点上以每秒超过1,000,000次的速度进行基于物理的模拟，是DeepMind Lab的70倍以上，用于建立涵盖多种认知挑战的多项智能任务的基准，提供模型无关的RL基线并促进未来研究。

Jul, 2021

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的RL框架。

Dec, 2022

通过本地规划实现样本高效深度强化学习

本文提出了一种名为“不确定性优先本地规划”的算法框架，结合模拟器的属性，在每一次数据收集迭代中，以一定概率将环境重置到高度不确定性的已观测状态，这样可以显著提高几个基准强化学习算法在困难的探索任务上的样本成本，并在 Atari 游戏Montezuma's Revenge中实现了超人类性能。

Jan, 2023

Spreeze: 高吞吐并行强化学习框架

我们提出了一种轻量级并行RL框架Spreeze，它能有效利用单个桌面硬件资源接近吞吐极限，通过异步并行化经验采样、网络更新、性能评估和可视化操作，并采用多种高效数据传输技术在进程之间传输各种类型的数据，基于计算能力自动调整并行超参数以进行高效的大批量更新，进一步改进吞吐量，模拟结果表明我们的框架能以一个人的个人桌面计算机每秒15,000次经验采样和370,000次网络更新的帧速率实现，比其他主流并行RL框架高一个数量级，训练时间减少了73%，充分利用单个桌面计算机的硬件资源是实现高效大规模分布式RL训练的基础。

Dec, 2023

PCGRL+: 强化学习关卡生成的规模、控制与泛化

本研究解决了现有程序内容生成（PCGRL）面临的规模限制问题，通过在Jax中实现PCGRL环境，使得学习和模拟过程能够在GPU上并行运行，从而显著加快训练速度。研究表明，模型能够学习到更稳健的设计策略，并在超出训练数据的地图尺寸上表现出良好的泛化能力，这为设计师提供了更大的控制权。

Aug, 2024