视觉关系检测的问题化简方法

Sep, 2018

A Problem Reduction Approach for Visual Relationships Detection

Toshiyuki Fukuzawa

TL;DR本研究使用机器学习和计算机视觉技术，将视觉关系检测问题转化为对象检测问题，应用于Google AI Open Images V4 Visual Relationship Track Challenge，并在2018年欧洲计算机视觉会议（ECCV 2018）中获奖。

Abstract

Identifying different objects (man and cup) is an important problem on its own, but identifying the relationship between them (holding) is critical for many real world use cases. This paper describes an approach to reduce a visual relationship detection problem to →

发现论文，激发创造

具有语言先验知识的视觉关系检测

本研究提出了一种新的模型，使用语义词嵌入的语言先验知识进行训练，以预测图像中的多个视觉关系，同时将物体和谓词分别训练，并在图像中标定对象的位置，从而提高基于内容的图像检索的准确性。

Jul, 2016

使用深度关系网络检测视觉关系

通过深度关系网络的嵌入式框架，探讨和利用对象之间以及它们的关系之间的统计依赖关系，从而实现更好的图像理解能力。

Apr, 2017

关于您的关心：朝着大规模人本视觉关系检测

本文提出一种应对图像中物体之间交互关系检测的方法，并构建了一个大规模的基于人的视觉关系检测数据集，并且提出一种基于网络监督学习的方法来解决测试集中标签标注的问题，提高了模型的准确性。

May, 2017

关系网络用于物体检测

本研究提出一种基于对象关系模块的深度学习模型，可以同时处理对象之间的外观特征和几何关系，从而提高了对象识别和重复去除步骤，在 CNN-based detection 中显著地有效，且无需额外 supervision，是第一个完全端到端的物体检测器。

Nov, 2017

利用盒子注意力检测视觉关系

通过引入盒子注意力机制的方式，我们提出了一种新的模型来检测视觉关系，例如“骑摩托车的人”或“桌子上的瓶子”。我们在三个具有挑战性的数据集中进行了实验评估并取得了强大的定量和定性结果。

Jul, 2018

Open Images数据集V4: 大规模统一图像分类、物体检测和视觉关系检测

Open Images V4是一份有关图像分类、物体检测和视觉关系检测的数据集，包括了9.2M幅图片，其中包含了30.1M个图像级标签，15.4M个边界框，以及375k个涉及57类的视觉关系注释。

Nov, 2018

探索视觉关系检测中的未确定关系

提出一种基于多模态特征下的未确定关系学习网络模型，可以自动地通过对对象对进行一定的判定给出未确定关系，并在三个模态的基础上提取特征，进而得到关系的确定度和预测结果，通过实验验证该方法在关系检测上的有效性。

May, 2019

基于解释的弱监督学习在视觉关系中的应用:图网络

该论文提出了一种新型的弱监督方法，使用最少的图像级谓词标签，利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类，将关系检测作为谓词分类器的解释，并在三个不同且具有挑战性的数据集上展示结果，表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。

Jun, 2020

VReBERT：一个简单灵活的用于视觉关系检测的Transformer

利用 VReBERT 模型的多阶段训练策略，联合处理视觉和语义特征的 VRD 模型，可以有效地预测谓词关系，推动零样本预测技术的发展。

Jun, 2022

场景图ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于Transformer的图像编码器模型，用于开放词汇视觉关系检测，并在Visual Genome和大词汇GQA基准测试上实现了最好的关系检测性能。

Mar, 2024