LGR2：语言引导的奖励重新标记加速分层强化学习

Jun, 2024

LGR2：语言引导的奖励重新标记加速分层强化学习

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

Utsav Singh, Pramit Bhattacharyya, Vinay P. Namboodiri

TL;DR开发交互系统，利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2，这是一种新颖的层次强化学习框架，利用语言指令生成上层政策的稳定奖励函数，以解决非稳态问题，从而有效地利用语言指令解决机器人控制任务。通过实证分析，我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中获得了超过 70% 的成功率，并在真实世界的场景中展示了出色的泛化能力。

Abstract

Developing interactive systems that leverage natural language instructions to solve complex robotic control tasks has been a long-desired goal in the robotics community. Large Language Models (LLMs) have demonstr

interactive systems natural language instructions hierarchical reinforcement learning lgr2 non-stationarity

发现论文，激发创造

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

通过基于模型的展开实现下层强化学习的引导协作

通过引入模型预测、渐进惩罚等方法，本研究提出了一种基于目标条件的层次强化学习框架，实现了不同层级之间的合作，从而提高了长期目标探索任务中政策的稳定性和效率。实验结果表明，该框架在难度较高的探索问题和机器人控制方面，比基准模型和之前的最先进的层次强化学习算法表现更为稳定和优越。

Sep, 2023

基于优势辅助奖励的分层强化学习

本文提出一种基于 Hierarchical Reinforcement Learning 的框架，通过设置辅助奖励来适应下游任务，同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习，无需使用特定任务的知识。实验结果表明，相比 Mujoco 领域中其他最先进的 HRL 方法，我们的算法有显著的性能优势，并且发现我们算法训练的低级和高级策略都是可转移的。

Oct, 2019

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

LaGR-SEQ: 语言引导的强化学习与高效抽样查询

通过使用大型语言模型的预测能力，我们引入了 LaGR（语言引导的强化学习）和 SEQ（样本高效查询）两个框架，用于在部分完成的任务中提出解决方案，并同时降低对语言模型的查询次数，从而更高效地进行主要强化学习训练。

Aug, 2023

机器技能综合的语言到奖励转换

本文提出了一种新颖的方法，即通过利用大型语言模型 (LLMs) 定义奖励参数，从而优化和实现各种机器人任务，并结合实时优化器 MuJoCo MPC，使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价，证明了这种方法成功解决了 90% 的任务，并在真实机器人手臂上验证了方法的有效性，包括非握持推动等复杂操作技能。

Jun, 2023

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018