利用内部和外部语言知识蒸馏的视觉关系检测
本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题,并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态,特别是在未预测关系的情况下。
Nov, 2017
本研究提出了一种新的模型,使用语义词嵌入的语言先验知识进行训练,以预测图像中的多个视觉关系,同时将物体和谓词分别训练,并在图像中标定对象的位置,从而提高基于内容的图像检索的准确性。
Jul, 2016
通过将语义模型与视觉统计模型相结合,并应用多种先进的链接预测方法,本研究证明链接预测方法可以提高对于视觉关系检测的结果,并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。
Sep, 2018
本研究提出了一个基于知识增强的少样本学习(few-shot learning)框架,利用预训练语言模型和自动构建的视觉关系知识图谱获取了文本知识和视觉关系知识,从而提高了少样本学习的实用性和性能。与现有最先进模型相比,在常用的 Visual Genome 数据集的三个基准测试中,本方法的性能大幅超越了现有最先进模型。
Mar, 2023
该研究提出一种新的关系检测模型,将物体和关系嵌入到两个矢量空间中,同时保留了区分能力和语义关联性,并在基于 Visual Genome 的大规模和不平衡基准上展示了该模型的有效性。
Apr, 2018
本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型,该模型使用多模态关注机制驱动每个分支的视觉特征,并在常用的 VRD 数据集上的实验表明,该方法明显优于其他相关方法。
Feb, 2019
该论文提出了一种新型的弱监督方法,使用最少的图像级谓词标签,利用图神经网络从检测到的对象的图形表示中对图像中的谓词进行分类,将关系检测作为谓词分类器的解释,并在三个不同且具有挑战性的数据集上展示结果,表明该方法具有对不全面注释的强健性和良好的少样本泛化能力。
Jun, 2020
提出一种融合图像和文本信息用于视觉关系检测和场景图生成的深度模型,通过共同的文本图像表示方法实现文本补充图像数据,结果表明图像中没有的文本信息可以显著提高模型性能
Oct, 2019
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019
本文介绍了一种新的建模视觉关系方法,设计了强大而灵活的视觉特征,提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系,并引入了一个新的具有挑战性的数据集(UnRel)和详尽的注释,用于准备评估视觉关系检索。实验结果表明,本文提出的模型在视觉关系数据集上取得了显著的提高,并在新引入的 UnRel 数据集上验证了该观察结果的有效性。
Jul, 2017