本研究论文提出了基于神经符号方法,利用场景图像来进行文本图像检索的解决方案,并训练了一种可学习的图匹配算法来实现检索任务,并实现了一个基于交互式问答的迭代检索框架。
Nov, 2019
本文通过使用图神经网络测量场景图的相似度,提出了一种基于场景图相似度的图像检索方法,并使用人工注释的标题计算图片相关性测量来训练图神经网络,收集了一个数据集用于评估检索算法,并显示我们的方法比竞争方法更符合人类对图像相似性的感知。
Dec, 2020
提出了两种改进场景结构表示法的方法,通过启发式关系和极端点表示法,显著提高相关分数测量方法的性能,并演示了如何使用场景图检索与源查询语义相似的姿态约束图像块,这是实现逼真图像生成的重要一步。
Apr, 2019
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
May, 2020
通过使用图形卷积网络和实例关系转换编码器,利用先前的关系和常识知识,提出一种用于一次性场景图生成任务的多重结构化知识方法,并且在构建的数据集上实现了历史最佳的结果。
Feb, 2022
通过将语义模型与视觉统计模型相结合,并应用多种先进的链接预测方法,本研究证明链接预测方法可以提高对于视觉关系检测的结果,并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。
Sep, 2018
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系,从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取,取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。
Oct, 2019
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
本文探讨利用图卷积网络对场景图进行结构化表示并生成有用的语义图像嵌入的方法,通过相似性标签学习图像表示,提出一种新的排序损失函数并设计三元采样策略,实验表明此方法优于已知相似性损失,且能够很好地捕捉场景的全局信息。
Apr, 2021