基于图编辑距离的奖励:学习编辑场景图
本文通过使用图神经网络测量场景图的相似度,提出了一种基于场景图相似度的图像检索方法,并使用人工注释的标题计算图片相关性测量来训练图神经网络,收集了一个数据集用于评估检索算法,并显示我们的方法比竞争方法更符合人类对图像相似性的感知。
Dec, 2020
本研究论文提出了基于神经符号方法,利用场景图像来进行文本图像检索的解决方案,并训练了一种可学习的图匹配算法来实现检索任务,并实现了一个基于交互式问答的迭代检索框架。
Nov, 2019
本研究通过引入对比学习框架,提出了一种用于测量图像和场景图相似性的图像 - 图形对齐方法,并且通过引入 R-Precision 作为新的评估指标,建立了基于 Visual Genome 和 Open Images 数据集的新基准。
Apr, 2023
本文介绍了一种新颖的边缘编辑方法,旨在从文档中提取关系信息,并将文档中的关系视为实体之间的关系图。我们利用预训练的 transformer 模型和图卷积神经网络模型对边缘进行分类,通过对初始图形的边缘进行编辑,构建关系图。我们将我们的方法应用于从材料科学文本中提取材料合成过程,并进行了实验证明。实验结果表明,我们的方法可以有效地编辑由我们内部基于规则系统和空图形引导的图形。
Jun, 2021
本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系,从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取,取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。
Oct, 2019
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
May, 2020
本文提出了一种将基于搜索的技术与深度嵌入模型相结合的混合方法,用于解决图形编辑距离(GED)的效率和适应性问题。通过动态规划将节点级嵌入设计成动态重用的方式,并鼓励修剪次优分支,该方法可以轻松地在 A * 过程中动态地集成,并通过学习的启发式显着减少计算负担。实验结果表明,该方法可以显着简化 A * 的搜索过程,而准确性不会显著降低。
Nov, 2020
本文提出了一种基于增量结构扩展的场景图修改模型,使用自然语言查询更新属性和关系,并构建了一个包含更加复杂查询和大型场景图的数据集, 并在四个基准测试上证明了模型的有效性,显著超过了之前的最先进模型。
Sep, 2022
该论文提出了一种场景图增强的图像 - 文本学习框架,其中利用视觉场景图结构进行常识推理,通过多跳图变压器实现模型结构的正则化,引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验,发现其显着提高了性能并证明了每个提出的组件的有效性。
Dec, 2021