关系变换网络

Apr, 2020

Relation Transformer Network

Rajat Koner, Suprosanna Shit, Volker Tresp

TL;DR该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Abstract

The extraction of a scene graph with objects as nodes and mutual relationships as edges is the basis for a deep understanding of image content. Despite recent advances, such as message passing and joint classification, the detection of →

scene graph visual relationships transformer encoder-decoder architecture relation prediction

发现论文，激发创造

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。

Nov, 2018

从纠缠的场景表示中发现对象及其关系

本文引入的关系网络（RNs）- 一种通用的神经网络架构，可用于从场景描述数据中学习对象关系，并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。

Feb, 2017

基于 Transformer 双关系图的多标签图像识别

本文提出了基于 Transformer 双重关系学习框架的方法，通过构建结构关系图和语义关系图，利用显式的语义感知约束来动态地建模图像对象的语义含义，并将学习到的结构关系合并到语义图中，为多对象识别任务提供了一种新的方法。

Oct, 2021

ReFormer: 用于图像字幕的关系 Transformer

提出了一种新的神经网络结构 ReFormer，该网络基于 Transformer 模型，融合了场景图生成目标与图像描述目标，实现了对图像对象间关系的显式建模，并能够同时生成高质量的图像描述和场景图，实验结果证明 ReFormer 在图像描述与场景图生成方面均优于当前的最新模型。

Jul, 2021

通过全局和局部关系交互进行欺诈检测

关系感知图神经网络与变形器网络结合，同时将本地和全局特征嵌入目标节点，通过注意力融合模块和跳跃连接将全局嵌入与本地嵌入合并，在两个公共数据集和一个工业数据集上验证了其卓越性能。

Feb, 2024

用于语义对应的循环变压器网络

本文提出了利用循环变压器网络（RTNs）对语义相似图像进行密集对应的方法，在迭代过程中估计图像间的空间变换，以及使用这些变换来生成对齐的卷积激活，通过直接估算两幅图像间的变换，而非独立正则化每个图像，我们证明了更高的精度可以得到，同时使用一种基于提出的分类损失的弱监督训练技术。利用 RTNs，在语义对应的多个基准测试中，实现了最先进的性能。

Oct, 2018

图关系变换器：将成对物体特征纳入 Transformer 架构中

我们提出了一种名为 GRT 的图形关系 Transformer 方法，它使用边缘信息来计算转换器中图形关注操作，它在视觉问答任务中取得了很好的效果。

Nov, 2021

图像场景图生成的图卷积神经网络

提出了一种新颖的场景图生成模型 ——Graph R-CNN，其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络（RePN），能够有效地处理图像中潜在关系的二次数量。同时，我们提出了一种注意力图卷积网络（aGCN），有效地捕捉对象和关系之间的上下文信息。最后，我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成，获得了最先进的性能。

Aug, 2018

从 Transformer 中提取出图形用于场景图生成的 EGTR

提出一种轻量级的一阶场景图生成（SGG）模型，通过充分利用 DETR 解码器的多头自注意力层中学习到的各种关系，使用浅层关系抽取头有效地提取关系图，并考虑到关系抽取任务对于物体检测任务的依赖，提出了一种新颖的关系平滑技术，根据检测到的物体质量自适应地调整关系标签，同时还提出了一个辅助任务 —— 连接性预测任务来预测物体对之间是否存在关系。

Apr, 2024