利用视觉可供性在非结构化数据上进行语言基础建设
本文研究了使用自然语言标签并结合机器人交互数据集,来学习规划机器人视觉操作任务的问题,并发现此方法在具有一定自由度的语言规划任务中表现更优秀,成功地完成了使用自然语言描述的物品移动任务。
Sep, 2021
大型语言模型在完成各种语言处理任务方面很成功,但在生成适当的控制序列时很容易与物理世界互动失败。我们发现主要原因是 LLM 没有与物理世界紧密连接。与现有基于 LLM 的方法相比,我们旨在解决这个问题,并探索在无训练范式下促使预训练 LLM 完成一系列机器人操作任务的可能性。为了将这些计划和控制序列与物理世界联系起来,我们开发了促使技术,通过刺激 LLM 来预测生成计划的后果并为相关对象生成可供性值。实验证明,LLM+A 在各种语言条件下的机器人操作任务中的有效性,显示了我们的方法通过增强生成计划和控制的可行性来显著提高性能,并能够轻松推广到不同的环境。
Apr, 2024
本研究旨在从自然语言文本中获取信息,进而训练机器人进行各种日常生活任务。我们通过探索一系列最重要的问题,来提出一种有效的机器人控制学习方法,该方法结合了分层控制、多模态变换编码器、离散潜在计划和自监督对比损失。同时,我们使用所提出的方法,成功地在机器人 CALVIN 基准测试中,超越了现有研究成果。
Apr, 2022
本论文提出了一种利用大型语言模型进行机器人交互的方法,用于解决理解语义知识和实现机器人任务之间的矛盾问题,其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势,通过指导解码策略可以实现复杂的机器人长视程任务。
Mar, 2023
通过自然语言条件化的模拟学习方法,结合像素感知、自然语言理解和多任务连续控制的神经网络,可以在无需任务或语言标签的情况下,显著提高任务成果,同时将语言注释成本降低到总数据量的不到 1%。
May, 2020
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
本研究通过语言条件机器人操作来提高算法在适应不熟悉环境中的泛化能力。在模拟环境和真实世界中的测试中,实验证明该方法的平均完成任务长度比 HULC 方法提高多达 2.5 倍,并且在真实世界的测试中也取得了相当好的表现。
May, 2023
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023