RLingua:利用大规模语言模型提高机器人操作中的强化学习样本效率
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
我们提出了 LARL-RM 算法,利用自动机将高层知识编码到强化学习中,以加速强化学习过程,同时使用大型语言模型通过提示工程来获取高层领域特定知识,避免了需要专家编码自动机的问题,且能够在无需专家指导和监督下进行全闭环强化学习,我们还展示了算法收敛到最优策略的理论保证,并通过两个案例研究实现了 30% 的加速收敛。
Feb, 2024
LLaRA: 大型语言和机器人助理是一个框架,将机器人动作策略定义为对话,并在训练中通过辅助数据提供改进的响应;通过将视觉输入与文本提示进行处理,能够生成最优策略决策。
Jun, 2024
利用大型语言模型优化强化学习的奖励功能,使自动驾驶代理在行为上更加灵活、精准和类人化,探究奖励设计在塑造自动驾驶车辆行为中的重要影响,为更先进、类人化的自动驾驶系统的发展提供了有希望的方向。
May, 2024
使用大规模语言模型(LLMs)自动构建适合真实世界转化的奖励函数和域随机化分布的 DrEureka 方法可用于解决四足动作和灵巧操纵等机器人任务,且无需迭代式手动设计。
Jun, 2024
本研究介绍了一个基于自然语言生成奖励和目标函数的机器人操作自动化训练方法,运用 Goal-conditioned 和 MTRL 技术,使用 Large Language Models,针对机器人操作的可扩展性问题进行了实验验证。
Jun, 2023
离线强化学习 (LaMo) 是一种基于决策 Transformer 的通用框架,旨在通过使用预训练语言模型和无广义知识的 LoRA 微调方法进行生成嵌入,并在稀奖励和有限数据样本任务中取得了最先进的性能。
Oct, 2023
通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力,我们设计了一个框架,将语言作为核心推理工具,能够处理一系列强化学习挑战,如有效的探索、重用经验数据、调度技能以及从观察中学习,从而改进了在模拟的机器人操作环境中的性能,并展示了如何利用学到的技能解决新任务或模仿人类专家视频。
Jul, 2023
介绍了通过内置的自主机器人来扩大 LLM 响应的空间,根据语言能力、身体实体、环境和用户喜好挑选、修补、选择 LLM 提供的响应,从而使机器人能够完成 75% 以上的任务一次学习并显著减少需要人工监督的程度。
Jun, 2023