使用深度关系网络检测视觉关系
本研究提出了一种新的模型,使用语义词嵌入的语言先验知识进行训练,以预测图像中的多个视觉关系,同时将物体和谓词分别训练,并在图像中标定对象的位置,从而提高基于内容的图像检索的准确性。
Jul, 2016
提出了一种新的基于关系表示学习和卷积物体检测网络的视觉关系检测方法VTransE,该方法可以有效地定位和预测复杂的视觉关系三元组,同时在两个大规模数据集上验证了其有效性。
Feb, 2017
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在Visual Relationship Detection和Visual Genome数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
该研究提出一种新的关系检测模型,将物体和关系嵌入到两个矢量空间中,同时保留了区分能力和语义关联性,并在基于Visual Genome的大规模和不平衡基准上展示了该模型的有效性。
Apr, 2018
通过将语义模型与视觉统计模型相结合,并应用多种先进的链接预测方法,本研究证明链接预测方法可以提高对于视觉关系检测的结果,并在Stanford Visual Relationship数据集上取得了优于当今最先进方法的性能。
Sep, 2018
本文是对Long-Tail Visual Relationship Recognition(LTVRR)任务的第一次大规模研究。通过引入VG8K-LT和GQA-LT等基于Visual Genome和GQA数据集的相关基准,研究了几种使用最先进的长尾模型在LTVRR设置中的性能。最后,介绍了一种VilHub损失和一种RelMix增强技术,能够显著提高性能,尤其是尾部类别。
Mar, 2020
该论文提出了一种新颖的transformer模型,用于场景图生成和关系预测,利用编码器 - 解码器架构和节点和边的丰富特征嵌入,通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互,并引入适用于处理解码器中的边的新的位置嵌入。
Apr, 2020
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
利用 VReBERT 模型的多阶段训练策略,联合处理视觉和语义特征的 VRD 模型,可以有效地预测谓词关系,推动零样本预测技术的发展。
Jun, 2022
深度学习中一个日益成熟的研究领域是开发能够学习关系特征的显式表示的架构。本文提出了一个叫做“关系卷积网络”的架构框架,重点研究了学习分层关系表示的问题,并通过一系列实验展示了如何利用关系卷积网络提供有效的建模方法来处理具有层次结构的关系任务。
Oct, 2023