为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架,该方法通过训练每个模块来独立解析实体、属性和空间关系,并结合领域自适应技术解决常见问题。实验表明,该框架与 Sim-To-Real 实现的视觉识别方法相结合,能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。
May, 2022
我们介绍了一种开放词汇的 3D 场景图(OVSG),它是一个形式化的框架,用于将各种实体,如物体实例、代理和区域,与自由文本查询进行关联。与传统的基于语义的物体定位方法不同,我们的系统支持上下文感知的实体定位,允许查询,如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比,OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明,我们提出的方法明显超越了以前基于语义的定位技术的性能。此外,我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。
Sep, 2023
该研究提出了一种基于图神经网络的方法,通过联合描述场景中的对象,并利用上下文信息来提高对象定位性能。
Nov, 2022
本文介绍了一种基于自然语言查询的短语定位系统,将其从先前的具有特定名词约束扩展到零样本定位,并提出了使用单阶段模型 ZSGNet 来解决此问题,该模型结合了检测和定位系统并具有最先进的性能。
Aug, 2019
该论文提出了第一个像素级分割 - 基于场景图生成的框架,并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题,其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模,并引入了新颖的高斯注意机制实现像素级关系预测,并且该框架支持端到端可训练。
Apr, 2021
本文重新审视了 Johnson 等人于 2015 年提出的 “使用场景图像检索单元进行图像检索” 的图像 grounding 方法,发现该方法没有有效地使用其学习的物体 - 关系模型。同时,作者还研究了 IRSG 数据集和 VRD 数据集,并发现这些数据集存在偏差,容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题,研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。
Apr, 2019
该研究提出了一种名为广义接地图 (G^3) 的框架,它通过将自然语言命令的语言分析结构动态地映射到概率图模型中,实现了语言与感知特征的有效关联。该方法能够处理语言多样性,提高了可扩展性和准确性,使机器人能够学习词汇,并根据学习到的词汇跟随未经训练的用户所发出的自然语言命令。
Nov, 2017
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
Oct, 2023
我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务,实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。
Jul, 2020