lilGym：利用强化学习进行自然语言视觉推理

Nov, 2022

lilGym：利用强化学习进行自然语言视觉推理

lilGym: Natural Language Visual Reasoning with Reinforcement Learning

Anne Wu, Kianté Brantley, Noriyuki Kojima, Yoav Artzi

TL;DRlilGym 是一个基于自然语言生成环境的强化学习基准，通过在每个可能世界状态上注释所有语句以确切计算奖励，创建了数千个不同难度的马尔可夫决策过程，并使用不同模型和学习体系结构实验和分析表明，lilGym 是一个具有挑战性的开放问题。

Abstract

We present lilGym, a new benchmark for language-conditioned reinforcement learning in visual environments. lilGym is based on 2,661 highly-compositional human-written natural language statements grounded in an in

language-conditioned reinforcement learning visual environments markov decision processes python programs benchmark

发现论文，激发创造

EduGym：强化学习教育环境套件

通过 EduGym 这一套教育性的强化学习环境和配套的交互式笔记本，该研究旨在帮助学生更好地理解强化学习的概念和实践，通过提供特定挑战方面的环境和解决方案，从而提高教学效果。

Nov, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

自然语言强化学习

强化学习和自然语言表示相结合的自然语言强化学习 (NLRL) 框架在解决样本效率低、解释性差、稀疏监督信号等问题方面表现出了显著的能力。通过在自然语言空间重新定义强化学习的概念和原则，以及结合大型语言模型的先进技术如 GPT-4 的实现方式，NLRL 在标签驱动的 MDPs 上的初步实验证明了该框架的有效性、效率以及可解释性。

Feb, 2024

Humanoid-Gym: 人形机器人的零样本 Sim2Real 迁移增强学习

基于 Nvidia Isaac Gym 的 Humanoid-Gym 是一个易于使用的强化学习框架，旨在训练仿人机器人的运动能力，重点是从模拟到真实环境的零迁移。

Apr, 2024

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

ChemGymRL: 数字化学强化学习的交互式框架

该研究提供了一个基于 Open AI Gym 模板的高度可定制和开源的 RL 环境，ChemGymRL，以支持在化学发现中训练 RL 代理，通过使用一系列互连的虚拟化学试验台。研究介绍了这些试验台，并在其中训练了一组标准 RL 算法，最后提供了多个标准 RL 方法的性能讨论和比较以及未来工作的发展方向列表作为 ChemGymRL 的远景。

May, 2023

基于语言条件的结构化数据模仿学习

通过自然语言条件化的模拟学习方法，结合像素感知、自然语言理解和多任务连续控制的神经网络，可以在无需任务或语言标签的情况下，显著提高任务成果，同时将语言注释成本降低到总数据量的不到 1％。

May, 2020

LMRL Gym：基于语言模型的多轮强化学习基准

大型语言模型和强化学习的协作为创建目标导向代理提供了潜力，但需要稳定可靠的强化学习算法。本研究引入了 LMRL-Gym 评估多轮 RL 针对 LLMs 的基准，以及一个包含基本工具包的开源研究框架，用于开始进行多轮 RL 的离线值基和策略基 RL 方法。该基准由 8 个不同的语言任务组成，需要多轮语言交互，涵盖开放对话和文本游戏的多种任务。

Nov, 2023

PDDLGym：来自 PDDL 问题的 Gym 环境

PDDLGym 是一个从 PDDL 域和问题中自动构建 OpenAI Gym 环境的框架，它是一个特别适合于关系强化学习和关系序列决策研究的框架，也可用作快速构建众多、多样化基准测试的通用框架。

Feb, 2020