利用大型语言模型自动化并加快使用奖励机制的强化学习

Feb, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine

Shayan Meshkat Alsadat, Jean-Raphael Gaglione, Daniel Neider, Ufuk Topcu, Zhe Xu

TL;DR我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Abstract

We present larl-rm (Large language model-generated automaton for reinforcement learning with Reward Machine) algorithm in order to encode

larl-rm reinforcement learning automaton large language models convergence

发现论文，激发创造

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

自我完善的大型语言模型作为机器人深度强化学习的自动奖励函数设计者

我们提出了一个带有自我完善机制的新型大语言模型框架，用于自动化奖励函数设计。通过在多个连续机器人控制任务上的实验，结果表明我们的大语言模型设计的奖励函数能够与手动设计的奖励函数相媲美甚至超越，突显了我们方法的效果和适用性。

Sep, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

LARG，基于语言的自动奖励和目标生成

本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法，运用 Goal-conditioned 和 MTRL 技术，使用 Large Language Models，针对机器人操作的可扩展性问题进行了实验验证。

Jun, 2023

大规模语言模型的强化学习问题解决

使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。

Apr, 2024

基于大型语言模型增强强化学习的调研：概念，分类和方法

大规模语言模型在增强学习中具有广泛的预训练知识和高水平的通用能力，本文对现有文献进行了综述，概括了大规模语言模型增强学习与传统增强学习方法的特点，并提出了一个结构化的分类法来系统地分类大规模语言模型在增强学习中的功能和方法，并讨论了其潜在应用、前景机会和挑战。

Mar, 2024

LARM: 面向长期视角具身智能的大型自回归模型

为了解决大型语言模型机器人在特定行动中的限制，本论文提出了一种新的大型自回归模型（LARM），该模型利用文本和多视图图像作为输入并以自回归方式预测后续行动。通过采用自回归节点传输结构的新数据格式和对应的数据集训练 LARM，成功实现了在 Minecraft 中获取更复杂的装备的决策过程。此外，LARM 的速度提高了 6.8 倍。

May, 2024

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

自动驾驶场景下的上下文学习

利用大型语言模型优化强化学习的奖励功能，使自动驾驶代理在行为上更加灵活、精准和类人化，探究奖励设计在塑造自动驾驶车辆行为中的重要影响，为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。

May, 2024

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023