EduGym:强化学习教育环境套件
我们介绍了 controlgym,这是一个包含 36 个安全关键的工业控制设置和 10 个基于无穷维偏微分方程的控制问题的库。我们将 controlgym 集成在 OpenAI Gym/Gymnasium (Gym) 框架中,允许直接应用标准的强化学习算法,如 stable-baselines3。此项目旨在为学习动态和控制(L4DC)社区提供服务,探索关键问题:学习控制策略的强化学习算法的收敛性;基于学习的控制器的稳定性和鲁棒性问题;以及强化学习算法在高维度和潜在无穷维度系统上的可扩展性。我们在 https URL 上开源了 controlgym 项目。
Nov, 2023
该研究提供了一个基于 Open AI Gym 模板的高度可定制和开源的 RL 环境,ChemGymRL,以支持在化学发现中训练 RL 代理,通过使用一系列互连的虚拟化学试验台。研究介绍了这些试验台,并在其中训练了一组标准 RL 算法,最后提供了多个标准 RL 方法的性能讨论和比较以及未来工作的发展方向列表作为 ChemGymRL 的远景。
May, 2023
介绍了 RecoGym,一个基于强化学习的环境,旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息,有效地提高了推荐系统的实时性和准确性。
Aug, 2018
通过引入系统动态方法(SD)作为一种补充方法,利用 SDGym 生成基于 SD 模拟模型的定制强化学习(RL)环境,验证了通过预先存在的 SD 模型和少量的配置代码可以生成良好指定、丰富的 RL 环境。
Oct, 2023
这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库,其中包含了 16 种最先进的安全强化学习算法,旨在促进安全性能的评估和比较,并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。
Oct, 2023
本文介绍了一种基于 Bullet 物理引擎的开源多旋翼 OpenAI Gym 环境,并通过多个实验展示了其在控制和强化学习方面的应用,旨在鼓励将控制理论和机器学习相结合的未来研究。
Mar, 2021
lilGym 是一个基于自然语言生成环境的强化学习基准,通过在每个可能世界状态上注释所有语句以确切计算奖励,创建了数千个不同难度的马尔可夫决策过程,并使用不同模型和学习体系结构实验和分析表明,lilGym 是一个具有挑战性的开放问题。
Nov, 2022
编写特定量子硬件的量子电路是具有挑战性的任务,并且当前的量子计算机存在严重的硬件限制。为了充分利用有限的资源,应该优化编译过程。为了改进当前的方法,可以使用强化学习(RL),这是一种让代理与环境交互以学习复杂策略以达到特定目标的技术。在这项工作中,我们介绍了 qgym,这是一个从 OpenAI Gym 派生的软件框架,以及专门针对量子编译的环境。qgym 的目标是通过抽象与两个领域都无关的过程部分,将人工智能(AI)的研究领域与量子编译连接起来。它可用于在高度可定制的环境中训练和基准测试 RL 代理和算法。
Aug, 2023
提出了一个名为 safe-control-gym 的新开源基准套件,支持模型和数据驱动控制技术,在 3 个动态系统和 2 个控制任务上提供实现,并建议将 OpenAI 的 Gym API 扩展为支持符号动态和限制条件的查询,并演示如何使用 safe-control-gym 来量化比较传统控制、基于学习的控制和强化学习的多种方法的控制性能、数据效率和安全性。
Sep, 2021
本文介绍了 panda-gym,它是集成了 OpenAI Gym 的 Franka Emika Panda 机器人的强化学习(RL)环境。它包括五个任务:到达,推动,滑动,拾取和堆叠。它们都遵循多目标 RL 框架,允许使用面向目标的 RL 算法。 panda-gym 是开源的,并且基于最新的无模型离策略算法。
Jun, 2021