基于图编辑距离的奖励：学习编辑场景图

ECCVAug, 2020

基于图编辑距离的奖励：学习编辑场景图

Graph Edit Distance Reward: Learning to Edit Scene Graph

Lichang Chen, Guosheng Lin, Shijie Wang, Qingyao Wu

TL;DR该研究提出了一种新方法，使用基于策略梯度和图匹配算法的场景图编辑距离奖励，以优化神经符号模型，将文本编辑应用于 CSS 和 CRIR 数据集。

Abstract

scene graph, as a vital tool to bridge the gap between language domain and image domain, has been widely adopted in the cross-modality task like VQA. In this paper, we propose a new method to edit the

scene graph cross-modality graph edit distance reward policy gradient neural symbolic model

发现论文，激发创造

通过学习场景图之间的相似度进行图像检索

本文通过使用图神经网络测量场景图的相似度，提出了一种基于场景图相似度的图像检索方法，并使用人工注释的标题计算图片相关性测量来训练图神经网络，收集了一个数据集用于评估检索算法，并显示我们的方法比竞争方法更符合人类对图像相似性的感知。

Dec, 2020

基于场景图的图像检索 -- CLEVR 数据集的案例研究

本研究论文提出了基于神经符号方法，利用场景图像来进行文本图像检索的解决方案，并训练了一种可学习的图匹配算法来实现检索任务，并实现了一个基于交互式问答的迭代检索框架。

Nov, 2019

使用 Transformer 学习场景图和图像之间的相似性

本研究通过引入对比学习框架，提出了一种用于测量图像和场景图相似性的图像 - 图形对齐方法，并且通过引入 R-Precision 作为新的评估指标，建立了基于 Visual Genome 和 Open Images 数据集的新基准。

Apr, 2023

一种基于神经网络的文档级关系图提取边缘编辑方法

本文介绍了一种新颖的边缘编辑方法，旨在从文档中提取关系信息，并将文档中的关系视为实体之间的关系图。我们利用预训练的 transformer 模型和图卷积神经网络模型对边缘进行分类，通过对初始图形的边缘进行编辑，构建关系图。我们将我们的方法应用于从材料科学文本中提取材料合成过程，并进行了实验证明。实验结果表明，我们的方法可以有效地编辑由我们内部基于规则系统和空图形引导的图形。

Jun, 2021

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

使用场景图进行视觉关系检测：一项调查

本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

May, 2020

动态嵌入式组合学习图编辑距离

本文提出了一种将基于搜索的技术与深度嵌入模型相结合的混合方法，用于解决图形编辑距离（GED）的效率和适应性问题。通过动态规划将节点级嵌入设计成动态重用的方式，并鼓励修剪次优分支，该方法可以轻松地在 A * 过程中动态地集成，并通过学习的启发式显着减少计算负担。实验结果表明，该方法可以显着简化 A * 的搜索过程，而准确性不会显著降低。

Nov, 2020

场景图修改作为增量结构扩展

本文提出了一种基于增量结构扩展的场景图修改模型，使用自然语言查询更新属性和关系，并构建了一个包含更加复杂查询和大型场景图的数据集，并在四个基准测试上证明了模型的有效性，显著超过了之前的最先进模型。

Sep, 2022

SGEITL: 基于场景图增强的图像 - 文本学习，用于视觉常识推理

该论文提出了一种场景图增强的图像 - 文本学习框架，其中利用视觉场景图结构进行常识推理，通过多跳图变压器实现模型结构的正则化，引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验，发现其显着提高了性能并证明了每个提出的组件的有效性。

Dec, 2021