GVCCI: 语言引导下的机器人操作视觉理解的终身学习

Jul, 2023

GVCCI: 语言引导下的机器人操作视觉理解的终身学习

GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation

Junghyun Kim, Gi-Cheon Kang, Jaein Kim, Suyeon Shin, Byoung-Tak Zhang

TL;DR本篇论文提出了 GVCCI，一种基于生动地场景生成指引的视觉定位无监督学习框架，该框架通过利用生成的数据持续学习视觉定位模型，并在语言引导机器人操作方面取得了良好的效果。

Abstract

language-guided robotic manipulation (LGRM) is a challenging task as it requires a robot to understand human instructions to manipulate everyday objects. Recent approaches in LGRM rely on pre-trained visual grounding

language-guided robotic manipulation visual grounding grounding vision to ceaselessly created instructions lifelong learning framework synthetic instruction

发现论文，激发创造

VIGC: 视觉指令生成和校正

本文提出了视觉指令生成和校正（VIGC）框架，使多模态大型语言模型能够生成指令调整数据并在生成过程中逐步提高其质量。

Aug, 2023

ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力

通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。

Feb, 2024

物理基础的视觉语言模型用于机器人操作

通过在 36.9K 个常见家居物体的数据集 PhysObjects 上针对视觉外观捕捉人类先验知识，我们提出了一种基于物理概念的视觉语言模型（VLM），并将其与基于大语言模型的机器人规划器结合使用，取得了在涉及与物理物体概念推理相关的任务中相比不使用物理概念的基线模型实现了改进的规划性能的结果。此外，在真实机器人上展示了物理概念视觉语言模型的好处，提高了任务成功率。

Sep, 2023

利用视觉可供性在非结构化数据上进行语言基础建设

本文提出了一种基于视觉语言感知模型的新方法，可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能，实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务，并比以往方法少使用一个数量级的数据。

Oct, 2022

面向开放世界抓取的大规模视觉语言模型

通过结合语言模型 (vision-language models)、分割模型和抓取综合模型，提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG)，通过视觉提示机制，借助于开放式自由语言的引导实现零样本应用，展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。

Jun, 2024

词典级对比性视觉引导改进语言建模

基于视觉监督的语言学习过程，通过提供词汇信息的早期层表示，兼容多模态的人类语言习得方式，实现了在语言模型中融入视觉基础的潜力。

Mar, 2024

对比区域指导：在无需训练的视觉语言模型中改善定位

通过对视觉线索进行引导，使用对比区域引导（CRG）方法可以提高视觉 - 语言模型（VLMs）在多种视觉 - 语言任务上的性能，减少模型偏见，提高准确性。

Mar, 2024

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

基于视觉语言模型的指令增强机器人技能习得

本论文介绍了一种名为 DIAL 的方法，利用半监督的语言标签，结合 CLIP 的语义理解，将知识传播到大型未标记的数据集中，并在增强的数据集上训练语言条件下的策略，从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。

Nov, 2022

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023