视频-语言评论家: 用于语言条件机器人的可转移奖励函数

May, 2024

视频-语言评论家: 用于语言条件机器人的可转移奖励函数

Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics

Minttu Alakuijala, Reginald McLean, Isaac Woungang, Nariman Farsad, Samuel Kaski...

TL;DR基于视频-语言评论家的奖励模型，可以在现有的跨体现数据上进行训练，使用对比学习和时间排序目标，对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中，通过在Open X-Embodiment数据上训练奖励模型，实现了比仅稀疏奖励模型更高效的策略训练，尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明，相比先前使用二元分类训练的语言条件奖励模型，静态图像或不利用视频数据中的时间信息，我们的方法实现了更高效的训练。

Abstract

natural language is often the easiest and most convenient modality for humans to specify tasks for robots. However, learning to ground language to behavior typically requires impractical amounts of diverse, langu

发现论文，激发创造

通过叙述式示范进行奖励学习

该研究提出了一种联合学习自然语言基础和可教授行为策略的方法，并使用叙述视觉演示（NVD）对其进行监督。通过将指导者描述映射到感知奖励探测器，训练对应的行为策略。通过实验表明，具有自然语言指导的可教授代理人可以在测试时执行涉及新对象和新位置的行为。

Apr, 2018

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

语言条件下的机器人操作任务模仿学习

这篇研究论文介绍了一种将自然语言引入模仿学习中的方法，可以让专家在提供动作演示的同时，提供自然语言的描述。通过融合语言、知觉和动作的关系，实现了更加精细的控制，降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明，此方法可有效学习自然语言条件下的机器人操作策略，并与其他方法相比做出了明显改进。

Oct, 2020

从离线数据和众包注释中学习语言相关机器人行为

本文研究了使用自然语言标签并结合机器人交互数据集，来学习规划机器人视觉操作任务的问题，并发现此方法在具有一定自由度的语言规划任务中表现更优秀，成功地完成了使用自然语言描述的物品移动任务。

Sep, 2021

语言条件下的机器人模仿学习对非结构化数据的影响因素

本研究旨在从自然语言文本中获取信息，进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题，来提出一种有效的机器人控制学习方法，该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时，我们使用所提出的方法，成功地在机器人CALVIN基准测试中，超越了现有研究成果。

Apr, 2022

基于基本技能先验的语言条件下的非结构化数据模仿学习

本研究通过语言条件机器人操作来提高算法在适应不熟悉环境中的泛化能力。在模拟环境和真实世界中的测试中，实验证明该方法的平均完成任务长度比HULC方法提高多达2.5倍，并且在真实世界的测试中也取得了相当好的表现。

May, 2023

LIV: 语言-图像表示和奖励在机器人控制中的应用

Language-Image Value learning (LIV) is used to pre-train a multi-modal representation for vision-language and reward learning, which can perform robotic control and reward specification in different environments using unseen robots or humans, and consistently outperforms the best prior input state representations and reward specification methods for policy synthesis.

Jun, 2023

语言奖励调节预训练强化学习

使用基于学习的奖励函数（LRFs）作为解决稀疏奖励强化学习（RL）任务的手段已经在任务复杂性方面取得了一些稳定的进展。本文提出了一种将LRFs作为RL的预训练信号的方法，即$ extbf{LA}$nguage Reward $ extbf{M}$odulated $ extbf{P}$retraining (LAMP)，其利用Vision-Language Models (VLMs)的零样本能力作为RL的预训练工具，而不是作为下游任务奖励。通过计算大量语言指令与代理器环境中的图像观察之间的对比对齐，LAMP使用冻结的预训练VLM生成嘈杂但有形状的探索奖励。LAMP与强化学习中的寻求新颖性的探索奖励一起优化这些奖励，以获得受语言条件约束的预训练策略。我们的VLM预训练方法与以前使用LRFs的方法不同，可以在RLBench的机器人操作任务上启动样本效率高的学习。

Aug, 2023

使用大型语言模型条件性地组合机器人技能

该论文介绍了一个名为“语言世界”的元世界基准的扩展，该基准允许使用大型语言模型在模拟机器人环境中使用半结构化自然语言查询和使用自然语言描述的脚本技能。通过使用与元世界相同的任务集，可以轻松将语言世界的结果与元世界的结果进行比较，从而比较使用大型语言模型和使用深度强化学习的最新方法之间的差异。其次，该论文介绍了一种名为“Plan Conditioned Behavioral Cloning”的方法，该方法允许使用端到端演示来优化高级计划的行为。使用语言世界，我们展示了PCBC能够在各种少样本情况下实现强大的性能，通常只需要一个演示即可实现任务的泛化。我们已经将语言世界作为开源软件提供，链接为https://URL。

Oct, 2023

关于基于语言条件技能发现的互信息思考与模仿学习

通过数学方法评估语言条件化策略学习框架中技能与语言指令之间的关系，提出了一种称为语言条件化技能发现（LCSD）的端到端模仿学习方法，通过最大化语言和技能之间的互信息，在无监督的情况下学习离散潜在技能并利用技能序列重构高级语义指令，通过在BabyAI、LORel和CALVIN上进行大量实验，展示了我们方法在语言条件化的机器人导航和操作任务中的优越性，包括对未知任务的增强泛化能力、改进的技能可解释性和显著提高的任务完成成功率。

Feb, 2024