EduGym：强化学习教育环境套件

Nov, 2023

EduGym: An Environment Suite for Reinforcement Learning Education

Thomas M. Moerland, Matthias Müller-Brockhausen, Zhao Yang, Andrius Bernatavicius, Koen Ponse...

TL;DR通过 EduGym 这一套教育性的强化学习环境和配套的交互式笔记本，该研究旨在帮助学生更好地理解强化学习的概念和实践，通过提供特定挑战方面的环境和解决方案，从而提高教学效果。

Abstract

Due to the empirical success of reinforcement learning, an increasing number of students study the subject. However, from our practical teaching experience, we see students entering the field (bachelor, master an

reinforcement learning teaching educational environments interactive notebooks edugym

发现论文，激发创造

Controlgym：用于基准化强化学习算法的大规模安全关键控制环境

我们介绍了 controlgym，这是一个包含 36 个安全关键的工业控制设置和 10 个基于无穷维偏微分方程的控制问题的库。我们将 controlgym 集成在 OpenAI Gym/Gymnasium (Gym) 框架中，允许直接应用标准的强化学习算法，如 stable-baselines3。此项目旨在为学习动态和控制（L4DC）社区提供服务，探索关键问题：学习控制策略的强化学习算法的收敛性；基于学习的控制器的稳定性和鲁棒性问题；以及强化学习算法在高维度和潜在无穷维度系统上的可扩展性。我们在 https URL 上开源了 controlgym 项目。

Nov, 2023

ChemGymRL: 数字化学强化学习的交互式框架

该研究提供了一个基于 Open AI Gym 模板的高度可定制和开源的 RL 环境，ChemGymRL，以支持在化学发现中训练 RL 代理，通过使用一系列互连的虚拟化学试验台。研究介绍了这些试验台，并在其中训练了一组标准 RL 算法，最后提供了多个标准 RL 方法的性能讨论和比较以及未来工作的发展方向列表作为 ChemGymRL 的远景。

May, 2023

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

SDGym: 使用系统动力学模型的低代码强化学习环境

通过引入系统动态方法（SD）作为一种补充方法，利用 SDGym 生成基于 SD 模拟模型的定制强化学习（RL）环境，验证了通过预先存在的 SD 模型和少量的配置代码可以生成良好指定、丰富的 RL 环境。

Oct, 2023

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

学会飞行 -- 一种使用 PyBullet 物理引擎的 Gym 环境，用于多智能体四轴飞行器控制的强化学习

本文介绍了一种基于 Bullet 物理引擎的开源多旋翼 OpenAI Gym 环境，并通过多个实验展示了其在控制和强化学习方面的应用，旨在鼓励将控制理论和机器学习相结合的未来研究。

Mar, 2021

lilGym：利用强化学习进行自然语言视觉推理

lilGym 是一个基于自然语言生成环境的强化学习基准，通过在每个可能世界状态上注释所有语句以确切计算奖励，创建了数千个不同难度的马尔可夫决策过程，并使用不同模型和学习体系结构实验和分析表明，lilGym 是一个具有挑战性的开放问题。

Nov, 2022

qgym：用于训练和基准测试基于强化学习的量子编译的健身房

编写特定量子硬件的量子电路是具有挑战性的任务，并且当前的量子计算机存在严重的硬件限制。为了充分利用有限的资源，应该优化编译过程。为了改进当前的方法，可以使用强化学习（RL），这是一种让代理与环境交互以学习复杂策略以达到特定目标的技术。在这项工作中，我们介绍了 qgym，这是一个从 OpenAI Gym 派生的软件框架，以及专门针对量子编译的环境。qgym 的目标是通过抽象与两个领域都无关的过程部分，将人工智能（AI）的研究领域与量子编译连接起来。它可用于在高度可定制的环境中训练和基准测试 RL 代理和算法。

Aug, 2023

safe-control-gym：机器人安全学习控制和强化学习一个统一的基准测试套件

提出了一个名为 safe-control-gym 的新开源基准套件，支持模型和数据驱动控制技术，在 3 个动态系统和 2 个控制任务上提供实现，并建议将 OpenAI 的 Gym API 扩展为支持符号动态和限制条件的查询，并演示如何使用 safe-control-gym 来量化比较传统控制、基于学习的控制和强化学习的多种方法的控制性能、数据效率和安全性。

Sep, 2021

Panda-Gym：用于机器人学习中的开源目标感知环境

本文介绍了 panda-gym，它是集成了 OpenAI Gym 的 Franka Emika Panda 机器人的强化学习（RL）环境。它包括五个任务：到达，推动，滑动，拾取和堆叠。它们都遵循多目标 RL 框架，允许使用面向目标的 RL 算法。 panda-gym 是开源的，并且基于最新的无模型离策略算法。

Jun, 2021