使用场景图进行增量式目标定位

Jan, 2022

Incremental Object Grounding Using Scene Graphs

John Seon Keun Yi, Yoonwoo Kim, Sonia Chernova

TL;DR本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Abstract

object grounding tasks aim to locate the target object in an image through verbal communications. Understanding human command is an important process needed for effective human-robot communication. However, this

object grounding human-robot communication semantic data scene graphs incremental grounding

发现论文，激发创造

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

基于辅助人工智能消除歧义的视觉定位实现虚实转移

本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

May, 2022

基于上下文感知的实体定位和开放词汇 3D 场景图

我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Sep, 2023

通过视听信息传递将自然图像场景图映射到实体化

该研究提出了一种基于图神经网络的方法，通过联合描述场景中的对象，并利用上下文信息来提高对象定位性能。

Nov, 2022

自然语言查询下的零样本对象定位

本文介绍了一种基于自然语言查询的短语定位系统，将其从先前的具有特定名词约束扩展到零样本定位，并提出了使用单阶段模型 ZSGNet 来解决此问题，该模型结合了检测和定位系统并具有最先进的性能。

Aug, 2019

基于分割的场景图生成

该论文提出了第一个像素级分割 - 基于场景图生成的框架，并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题，其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模，并引入了新颖的高斯注意机制实现像素级关系预测，并且该框架支持端到端可训练。

Apr, 2021

再探视觉定位

本文重新审视了 Johnson 等人于 2015 年提出的 “使用场景图像检索单元进行图像检索” 的图像 grounding 方法，发现该方法没有有效地使用其学习的物体 - 关系模型。同时，作者还研究了 IRSG 数据集和 VRD 数据集，并发现这些数据集存在偏差，容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题，研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。

Apr, 2019

广义接地图：一种理解接地命令的概率框架

该研究提出了一种名为广义接地图 (G^3) 的框架，它通过将自然语言命令的语言分析结构动态地映射到概率图模型中，实现了语言与感知特征的有效关联。该方法能够处理语言多样性，提高了可扩展性和准确性，使机器人能够学习词汇，并根据学习到的词汇跟随未经训练的用户所发出的自然语言命令。

Nov, 2017

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020