DrEureka: 语言模型引导的模拟到现实转移
通过使用语言模型生成丰富的仿真环境和专家演示,在模拟数据上进行多任务策略训练,极大地增强了任务级泛化能力,并实现了对未见过的现实任务的强大转移能力。
Oct, 2023
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。
Jun, 2023
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
本论文提出了一种基于元学习的方法,在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时,训练机器人智能体以适应各种动态条件,以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后,在 KUKA LBR 4 + 机器人上应用此策略,并在将曲棍球击向目标的任务中评估其性能。实验结果表明,与基准表现相比,这种方法具有更一致和稳定的域适应性,从而获得了更好的整体性能。
Sep, 2019
Eureka 是一个由 LLMs 支持的人类级奖励设计算法,通过利用 GPT-4 等最先进的 LLMs 的无需提示、代码编写和条件改进能力,进行奖励代码的进化优化,从而生成可用于强化学习的复杂技能获取奖励函数。在一个多样的包含 10 个不同机器人形态的 29 个开源强化学习环境中,Eureka 在 83%的任务上超过了人类专家,在平均标准化改进率为 52%。Eureka 的通用性还使得从人类反馈进行无梯度的上下文学习(RLHF)成为可能,在不进行模型更新的情况下,即可融入人类输入以提高生成奖励的质量和安全性。最后,利用 Eureka 奖励在课程学习设置中演示了模拟的 Shadow Hand 能够熟练进行旋转笔技巧,并以快速速度进行笔的操纵。
Oct, 2023
通过强化学习在模拟环境中训练机器人并结合补充奖励策略,与真实机器人进行进一步的微调来优化探索策略,实验结果表明,这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。
Jul, 2017
通过使用自然语言描述图像作为统一的信号来捕捉底层的任务相关语义,我们提出了一种方法来解决在学习图像条件机器人策略时所面临的模拟与真实世界之间的视觉差距问题,该方法通过对大量模拟数据和少量真实演示进行同时训练,将图像编码器作为无域变迁的图像表示的基础,并取得了较之前的 Sim2Real 方法和 CLIP、R3M 等强大的视觉 - 语言预训练方法 25 至 40% 的性能提升。
May, 2024
本文提出了一种利用深度强化学习技术自动化四足机器人运动设计过程的系统,能够从简单的奖励信号中学习四足运动,并可提供开环参考进行学习过程的控制,采用系统辨识来改进物理模拟器,利用物理环境随机与扰动设计控制器,并在物理模拟器中进行评估,成功在现实世界中部署。
Apr, 2018
在没有人类干预的情况下,我们提出了一种通过使用大型语言模型(LLM)来学习奖励的方法,该方法通过迭代的自我对齐过程,最小化 LLM 和学习奖励函数之间的排名不一致性,从而在训练效果和效率方面实现了一致的改善,并且相比于基于突变的方法消耗了更少的 GPT 令牌。
May, 2024
利用大型语言模型 (LLM) 的内部知识,提出一种名为 RLingua 的框架,以减少强化学习在机器人操作中的样本复杂性。
Mar, 2024