GVCCI: 语言引导下的机器人操作视觉理解的终身学习
通过细粒度的奖励建模,ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。
Feb, 2024
通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识,我们提出了一种基于物理概念的视觉语言模型(VLM),并将其与基于大语言模型的机器人规划器结合使用,取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外,在真实机器人上展示了物理概念视觉语言模型的好处,提高了任务成功率。
Sep, 2023
本文提出了一种基于视觉语言感知模型的新方法,可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能,实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务,并比以往方法少使用一个数量级的数据。
Oct, 2022
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉 - 语言模型(VLMs)在多种视觉 - 语言任务上的性能,减少模型偏见,提高准确性。
Mar, 2024
本论文介绍了一种名为 DIAL 的方法,利用半监督的语言标签,结合 CLIP 的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。
Nov, 2022
通过使用大型语言模型,我们提出了一种零样本开放词汇的三维视觉定位方法,使用独特的基于对话的方法和视觉程序模块,以及创新的语言 - 物体关联模块,在三维场景中实现了复杂推理,并扩展了现有三维物体检测器的应用范围,取得了显著的性能优势。
Nov, 2023