视觉关系检测的问题化简方法
本研究提出了一种新的模型,使用语义词嵌入的语言先验知识进行训练,以预测图像中的多个视觉关系,同时将物体和谓词分别训练,并在图像中标定对象的位置,从而提高基于内容的图像检索的准确性。
Jul, 2016
本文提出一种应对图像中物体之间交互关系检测的方法,并构建了一个大规模的基于人的视觉关系检测数据集,并且提出一种基于网络监督学习的方法来解决测试集中标签标注的问题,提高了模型的准确性。
May, 2017
本研究提出一种基于对象关系模块的深度学习模型,可以同时处理对象之间的外观特征和几何关系,从而提高了对象识别和重复去除步骤,在 CNN-based detection 中显著地有效,且无需额外 supervision,是第一个完全端到端的物体检测器。
Nov, 2017
通过引入盒子注意力机制的方式,我们提出了一种新的模型来检测视觉关系,例如“骑摩托车的人”或“桌子上的瓶子”。我们在三个具有挑战性的数据集中进行了实验评估并取得了强大的定量和定性结果。
Jul, 2018
Open Images V4是一份有关图像分类、物体检测和视觉关系检测的数据集,包括了9.2M幅图片,其中包含了30.1M个图像级标签,15.4M个边界框,以及375k个涉及57类的视觉关系注释。
Nov, 2018
提出一种基于多模态特征下的未确定关系学习网络模型,可以自动地通过对对象对进行一定的判定给出未确定关系,并在三个模态的基础上提取特征,进而得到关系的确定度和预测结果,通过实验验证该方法在关系检测上的有效性。
May, 2019
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
利用 VReBERT 模型的多阶段训练策略,联合处理视觉和语义特征的 VRD 模型,可以有效地预测谓词关系,推动零样本预测技术的发展。
Jun, 2022
通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于Transformer的图像编码器模型,用于开放词汇视觉关系检测,并在Visual Genome和大词汇GQA基准测试上实现了最好的关系检测性能。
Mar, 2024