利用关系进行可迁移的少样本细粒度目标检测
该研究提出了一种称为 Semantics Induced Learner(SIL)的模型,用于解决图像理解中的对象关系检测任务,结合了自底向上和自顶向下的注意力机制,通过一次学习就能够有效地和稳健地适应大量具有不同外观的对象关系,证明了该框架在目标关系检测方面的有效性。
Jul, 2018
本研究提出一种基于对象关系模块的深度学习模型,可以同时处理对象之间的外观特征和几何关系,从而提高了对象识别和重复去除步骤,在 CNN-based detection 中显著地有效,且无需额外 supervision,是第一个完全端到端的物体检测器。
Nov, 2017
本文提出一种新的 few-shot 目标检测网络,使用少量注释的示例检测未见过的物体类别,并通过 Attention-RPN,Multi-Relation Detector 和 Contrastive Training 策略来抑制背景误检。作者还贡献了一个包含高品质注释的 1000 个物体类别的新数据集,是针对 few-shot 目标检测的首批数据集之一。该方法在不同数据集上取得了新的最佳性能表现,具有广泛的潜在应用。
Aug, 2019
通过引入对象关系模块和图神经网络(GNN),从周围建议中提取空间信息并改进 3D 对象检测,该方法在 KITTI 数据集上相较基准方法 PV-RCNN 在简单、中等和困难难度级别的汽车类上分别提升了 0.82%、0.74% 和 0.58%,在中等和困难难度级别的 BEV AP 上优于基准方法超过 1%。
May, 2024
本研究提出一种弱监督学习方法,通过利用图像标题和对象边界框注释作为唯一的监督信息来预测图像中各种实体之间的关系。我们使用自上而下的关注机制将标题中的实体对齐到图像中的对象,然后利用标题的语法结构将关系对齐。我们使用这些对齐来训练关系分类网络,从而获得基于现实的字幕和稠密的关系。我们在 Visual Genome 数据集上展示了我们模型的有效性,其关系的召回率达到 15%(@50)和 25%(@100)。我们还展示了该模型成功预测了与相应字幕中不存在的关系。
Dec, 2019
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
本文提出了一种半监督方法,通过很少的带标签的样本分配概率关系标签到大量未标记的图像,生成足够的训练数据来训练任何现有的最先进的场景图模型,该方法在场景图预测方面优于所有基准方法,此外,我们定义了一种关系的复杂度指标,为条件提供指示符。
Apr, 2019
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017