VoxPoser:使用语言模型构建可组合的三维价值地图,实现机器人操作
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的6D-CLIPort模型来处理多视角观察和语言输入并输出一系列6自由度(DoF)动作。
Jun, 2022
使用Perceiver Transformer的行为克隆代理能够有效地学习行动,实验表明其在桌面任务上优于不受结构限制的图像转行动代理和3D ConvNet基准。
Sep, 2022
提出了一个学习机器人操纵任务高级认知能力的新框架,使用语言模型构建AlphaBlock数据集,自动采集综合高级多步文本计划和配对观察序列,使用多模式的闭环计划模型自回归生成计划,从而实现对机器人的精细操作。实验结果表明,该方法显著提高了成功率。
May, 2023
本文提出了一种基于语言根据分割掩模的新型范例,来应对日常情况下一系列的抓取和放置机器人操作任务,通过将从掩模中传达的精确语义和几何形状与我们的多视点策略模型相结合,使我们的方法能够感知准确的物体姿态并实现样本高效学习。
Jun, 2023
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设LLMs在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在26个真实世界的基于语言的任务上的表现,比如“打开瓶盖”和“用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了LLMs在机器人领域的假设限制,首次揭示了LLMs确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023
在未知和动态环境中, 建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉-语言模型的密集三维实体重建, 利用大型语言模型进行空间区域抽象和在线规划, 并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好的成功率和性能, 证明了这种新的框架的有效性。
Jun, 2024
Manipulate-Anything是一种可扩展的自动化生成方法,在没有特权状态信息、手动设计的技能的情况下,在真实环境中操作任何静态物体,其生成的演示数据可以用于生成鲁棒的行为克隆策略。
Jun, 2024
VoxAct-B是一种基于语言驱动的基于体素的方法,通过利用视觉语言模型(VLMs)优先考虑场景中的关键区域并重建一个体素网格,在仿真和真实世界的实验中,VoxAct-B在精细双臂操纵任务上表现优异,实现了更高效的策略学习。
Jul, 2024
本研究针对缺乏适当模拟基准测试的问题,提出了GemBench,一个新颖的基准,用于评估视觉-语言机器人操作策略的推广能力。通过3D-LOTUS和3D-LOTUS++方法,该研究实现了在GemBench上新任务的先进性能,设立了机器人操作领域的推广新标准。
Oct, 2024