PDDLGym:来自 PDDL 问题的 Gym 环境
pyRDDLGym 是一个 Python 框架,可以通过 RDDL 描述自动生成 OpenAI Gym 的环境,支持模型知识以及多个实体和不同配置。它可以帮助强化学习领域快速开发新的基准,且便于基于交互式学习实现混合方法的研究。
Nov, 2022
通过引入系统动态方法(SD)作为一种补充方法,利用 SDGym 生成基于 SD 模拟模型的定制强化学习(RL)环境,验证了通过预先存在的 SD 模型和少量的配置代码可以生成良好指定、丰富的 RL 环境。
Oct, 2023
我们介绍了 controlgym,这是一个包含 36 个安全关键的工业控制设置和 10 个基于无穷维偏微分方程的控制问题的库。我们将 controlgym 集成在 OpenAI Gym/Gymnasium (Gym) 框架中,允许直接应用标准的强化学习算法,如 stable-baselines3。此项目旨在为学习动态和控制(L4DC)社区提供服务,探索关键问题:学习控制策略的强化学习算法的收敛性;基于学习的控制器的稳定性和鲁棒性问题;以及强化学习算法在高维度和潜在无穷维度系统上的可扩展性。我们在 https URL 上开源了 controlgym 项目。
Nov, 2023
通过 EduGym 这一套教育性的强化学习环境和配套的交互式笔记本,该研究旨在帮助学生更好地理解强化学习的概念和实践,通过提供特定挑战方面的环境和解决方案,从而提高教学效果。
Nov, 2023
本文介绍了 panda-gym,它是集成了 OpenAI Gym 的 Franka Emika Panda 机器人的强化学习(RL)环境。它包括五个任务:到达,推动,滑动,拾取和堆叠。它们都遵循多目标 RL 框架,允许使用面向目标的 RL 算法。 panda-gym 是开源的,并且基于最新的无模型离策略算法。
Jun, 2021
lilGym 是一个基于自然语言生成环境的强化学习基准,通过在每个可能世界状态上注释所有语句以确切计算奖励,创建了数千个不同难度的马尔可夫决策过程,并使用不同模型和学习体系结构实验和分析表明,lilGym 是一个具有挑战性的开放问题。
Nov, 2022
PDDLEGO proposes an iterative planning representation approach for partially-observed environments, achieving efficient plans and strong performance compared to end-to-end LLMs.
May, 2024
该篇文章介绍了 DoorGym 环境模拟框架,利用强化学习与领域随机化提高模型泛化性能。提供的基于 PPO 和 SAC 的实现可成功地在 DoorGym 环境中打开不同类型的门,并且现实世界中的转移实验也证明了训练出的模型的可用性。
Aug, 2019
实际应用中的强化学习(RL)通常是部分可观测的,并且需要记忆。本文提出了一个名为 POPGym 的库,包含多个具有多个困难程度的部分可观测环境和 13 种记忆模型基准实现,并在流行的 RLlib 框架上实现了高层内存 API 和记忆基线,具有可插拔性,且执行了迄今为止最大的 RL 内存模型比较。
Mar, 2023
在这篇论文中,我们介绍了一种高效轻量级的强化学习查询优化环境 JoinGym,该环境可用于测试强化学习算法在关于查询的组合优化问题中的泛化能力,并且我们提供了在实际数据管理问题上测试方法的离线跟踪,同时提供了从 IMDB 数据集生成的 3300 个 SQL 查询的所有可能的连接跟踪。
Jul, 2023