通过语言优化进行政策适应:对少样本模仿任务的分解
通过自然语言条件化的模拟学习方法,结合像素感知、自然语言理解和多任务连续控制的神经网络,可以在无需任务或语言标签的情况下,显著提高任务成果,同时将语言注释成本降低到总数据量的不到1%。
May, 2020
这篇研究论文介绍了一种将自然语言引入模仿学习中的方法,可以让专家在提供动作演示的同时,提供自然语言的描述。通过融合语言、知觉和动作的关系,实现了更加精细的控制,降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明,此方法可有效学习自然语言条件下的机器人操作策略,并与其他方法相比做出了明显改进。
Oct, 2020
本文研究了使用自然语言标签并结合机器人交互数据集,来学习规划机器人视觉操作任务的问题,并发现此方法在具有一定自由度的语言规划任务中表现更优秀,成功地完成了使用自然语言描述的物品移动任务。
Sep, 2021
本文提出了CALVIN(通过语言和视觉组合动作)这一开放源代码数据集,目的是让机器人代理能够通过追踪无限制的语言指令来解决许多长期性的机器人操纵任务,并支持传感器套件的灵活规定。在零-shot条件下,实验证明基于多环境下的学习的基线模型在CALVIN任务中表现不佳,因此本数据集对开发学习如何将人类语言与世界模型相关联的创新代理具有重要意义。
Dec, 2021
本研究旨在从自然语言文本中获取信息,进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题,来提出一种有效的机器人控制学习方法,该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时,我们使用所提出的方法,成功地在机器人CALVIN基准测试中,超越了现有研究成果。
Apr, 2022
本论文介绍了一种名为DIAL的方法,利用半监督的语言标签,结合CLIP的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的60个新指令。
Nov, 2022
该论文介绍了一个名为“语言世界”的元世界基准的扩展,该基准允许使用大型语言模型在模拟机器人环境中使用半结构化自然语言查询和使用自然语言描述的脚本技能。通过使用与元世界相同的任务集,可以轻松将语言世界的结果与元世界的结果进行比较,从而比较使用大型语言模型和使用深度强化学习的最新方法之间的差异。其次,该论文介绍了一种名为“Plan Conditioned Behavioral Cloning”的方法,该方法允许使用端到端演示来优化高级计划的行为。使用语言世界,我们展示了PCBC能够在各种少样本情况下实现强大的性能,通常只需要一个演示即可实现任务的泛化。我们已经将语言世界作为开源软件提供,链接为https://URL。
Oct, 2023
我们提出了一种基于语言条件的语义搜索方法,从可用的示范数据集中获取在线搜索策略,在CALVIN基准测试中超过了基线性能,并展现了强大的零样本适应能力,对于扩展基于在线搜索策略的任务具有巨大的潜力。
Dec, 2023
使用自然语言设计状态抽象来实现模仿学习的框架,该框架利用语言模型的背景知识和自然语言监督,自动构建针对未见任务的状态表示,并证明其提高了泛化性和稳健性,缩短了设计时间。
Feb, 2024
基于视频-语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中,通过在Open X-Embodiment数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明,相比先前使用二元分类训练的语言条件奖励模型,静态图像或不利用视频数据中的时间信息,我们的方法实现了更高效的训练。
May, 2024