上下文依赖扩散网络用于视觉关系检测

MMSep, 2018

上下文依赖扩散网络用于视觉关系检测

Context-Dependent Diffusion Network for Visual Relationship Detection

Zhen Cui, Chunyan Xu, Wenming Zheng, Jian Yang

TL;DR本文提出了一种基于语义图和视觉场景图构建的上下文相关扩散网络 (CDDN) 框架，用于解决对象之间的关系识别问题。对两个广泛使用的数据集进行的实验表明，所提出的方法更有效，达到了最先进的性能。

Abstract

visual relationship detection can bridge the gap between computer vision and natural language for scene understanding of images. Different from pure object recognition tasks, the relation triplets of subject-predicate-object lie on an extreme diversity space, such as \textit{person-beh

visual relationship detection context-dependent diffusion network object recognition semantic graph visual scene graph

发现论文，激发创造

使用深度关系网络检测视觉关系

通过深度关系网络的嵌入式框架，探讨和利用对象之间以及它们的关系之间的统计依赖关系，从而实现更好的图像理解能力。

Apr, 2017

GraphRelate3D：上下文相关的基于关系图的三维物体检测

通过引入对象关系模块和图神经网络（GNN），从周围建议中提取空间信息并改进 3D 对象检测，该方法在 KITTI 数据集上相较基准方法 PV-RCNN 在简单、中等和困难难度级别的汽车类上分别提升了 0.82%、0.74% 和 0.58%，在中等和困难难度级别的 BEV AP 上优于基准方法超过 1%。

May, 2024

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

使用场景描述的语义建模改进视觉关系检测

通过将语义模型与视觉统计模型相结合，并应用多种先进的链接预测方法，本研究证明链接预测方法可以提高对于视觉关系检测的结果，并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。

Sep, 2018

基于解释的弱监督学习在视觉关系中的应用：图网络

该论文提出了一种新型的弱监督方法，使用最少的图像级谓词标签，利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类，将关系检测作为谓词分类器的解释，并在三个不同且具有挑战性的数据集上展示结果，表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。

Jun, 2020

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

基于关系图网络的点云三维物体检测

本文提出了一种基于卷积神经网络的关系图网络模型，该模型利用方向特征、语义特征和空间坐标，结合盒子候选回归和点注意池化，探索关系图对于提高候选物体外观特征的影响，最终成功实现了在点云中检测三维物体的任务。

Nov, 2019

场景图 ViT：端到端开放词汇视觉关系检测

通过引入无解码器架构和注意力机制，我们提出了一种简单高效的基于 Transformer 的图像编码器模型，用于开放词汇视觉关系检测，并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。

Mar, 2024

基于相对位置挖掘的视觉关系检测

本文提出了一种基于物体对位置深度挖掘的视觉关系检测框架，通过使用 Gated Graph Neural Network 获取谓词间的相关性。在数据集 VRD 和 VG 上的实验结果表明，相对位置信息的挖掘和利用可以显著提高模型的性能。

Nov, 2019

动态上下文对应网络（DCN）用于语义对齐

该论文提出了一种名为 DCCNet 的动态上下文对应网络，通过引入注意力机制，整合了多种语义线索，对计算机视觉中语义对应问题进行了改进，并在多个数据集上验证了该方法的有效性。

Sep, 2019