强化学习研究的九种物理引擎综述

Jul, 2024

强化学习研究的九种物理引擎综述

A Review of Nine Physics Engines for Reinforcement Learning Research

Michael Kaup, Cornelius Wolff, Hyerim Hwang, Julius Mayer, Elia Bruni

TL;DR综述并评估了九种常用的模拟引擎和框架在强化学习研究中的应用情况，重点讨论了选择和使用物理引擎时的挑战，并强调了MuJoCo作为领先框架的优势和灵活性，以及Unity使用的易用性和可伸缩性问题。该研究呼吁进一步发展以改善模拟引擎的可用性和性能，并强调了在强化学习研究中透明性和可复现性的重要性。

Abstract

We present a review of popular simulation engines and frameworks used in reinforcement learning (RL) research, aiming to guide researchers in selecting tools for creating simulated →

发现论文，激发创造

离线强化学习基准套件：RL Unplugged

本文介绍了 RL Unplugged 基准测试，以评估和比较离线强化学习方法，其中涵盖了各种域的数据集，从而使 RL 研究更有系统性，更具可访问性。

Jun, 2020

学会运动：理解环境设计对于深度强化学习的影响

本文探究了深度强化学习与基于物理原理的动画学习中的RL环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果，特别强调其对学习连续动作控制问题的应用的重要性。

Oct, 2020

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线-在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

基于模型的SINDy强化学习

利用物理学领域的最新进展，提出一种新的方法来发现强化学习中物理系统的控制非线性动态，并证明此方法能够在很少的轨迹采样数量（仅需要一次$≤30$时间步的轨迹）下发现此动态，从而为系统带来基于模型的强化学习的好处，并且不需要事先开发模型。该算法在四个控制问题上的实验表明，训练得到的基于控制系统真实动态的最优策略泛化能力强，且对于实际物理系统具有很好的性能表现。与现有的其他方法相比，该方法需要采样更少的真实物理系统轨迹。

Aug, 2022

Karolos：一个开源的机器人任务强化学习框架

介绍了一个面向机器人应用的强化学习框架Karolos，重点是转移场景、模块化环境架构和现有RL算法的实现，以及并行化环境的架构来加快实验速度。

Dec, 2022

基于物理信息的强化学习综述: 回顾与未解的问题

通过在强化学习过程中加入物理信息，物理信息的应用已经在许多领域引起了革命性变化。本研究通过综述现有文献，提出了物理信息应用于强化学习的新颖分类法，分析了现有方法的不同特点和关键见解，并通过对核心学习架构和物理融合偏差的识别，进一步对这些方法进行了分类，为更好地理解和应用提供了指导。这一新兴领域有望通过增加强化学习算法的物理合理性、精度、数据效率和在实际场景中的适用性来提升强化学习算法的能力。

Sep, 2023

Uni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈

通过Uni-RLHF系统，我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案，包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线RLHF基线实现。通过广泛的实验，我们的结果表明，与精心设计的手动奖励相比，收集到的数据集在多个任务中表现出有竞争力的性能，同时也评估了各种设计选择并提出了改进的潜在领域。我们希望建立有价值的开源平台、数据集和基线，以便基于现实人类反馈来促进更强大、可靠的RLHF解决方案的开发。

Feb, 2024

Open RL基准:强化学习的全面跟踪实验

Open RL Benchmark是第一个旨在提高和促进领域内研究人员工作的RL基准，它包含了一套完全跟踪的RL实验数据，以及算法特定和系统度量，成功复现了超过25000次运行的RL实验，涵盖了多个RL库和参考实现，并提供简单易用的命令行界面供使用。

Feb, 2024

通过深度强化学习实现现实世界流体引导刚体控制

近期增加在强化学习实际应用方面的研究，依赖于能够在规模上准确模拟系统。然而，液体动力学系统等领域展示了复杂的动态现象，难以以高积分速率进行模拟，限制了现代深度强化学习算法在昂贵或安全关键硬件上的直接应用。在本研究中，我们引入了“Box o Flows”，这是一个新颖的台面实验控制系统，用于系统地评估动态实际环境中的强化学习算法。我们描述了Box o Flows的关键组成部分，并通过一系列实验演示了最新的无模型强化学习算法如何通过简单的奖励规范来合成各种复杂行为。此外，我们通过重用过去的经验，探讨了离线强化学习在数据高效假设测试中的作用。我们相信，从这个初步研究中获得的见解以及像Box o Flows这样的系统的可用性，将支持开发可普遍应用于复杂动态系统的系统化强化学习算法。附加材料和实验视频可在以下链接找到：[URL]

Feb, 2024

Craftium: 一个可扩展的用于创建强化学习环境的框架

Craftium是一个基于Minetest游戏引擎和Gymnasium API构建的创新框架，用于探索和创建丰富的三维视觉强化学习环境，允许从简单的视觉任务到无限和程序化生成的世界，创建完全定制的环境来适应特定的研究需求，并提供了五个可用于基准测试和开发新环境的示例环境。

Jul, 2024