关系变换网络
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。
Nov, 2018
本文引入的关系网络(RNs)- 一种通用的神经网络架构,可用于从场景描述数据中学习对象关系,并从变分自编码器提供的场景图像的分布式深度表示中分离出错综场景描述输入的对象。
Feb, 2017
本文提出了基于 Transformer 双重关系学习框架的方法,通过构建结构关系图和语义关系图,利用显式的语义感知约束来动态地建模图像对象的语义含义,并将学习到的结构关系合并到语义图中,为多对象识别任务提供了一种新的方法。
Oct, 2021
提出了一种新的神经网络结构 ReFormer,该网络基于 Transformer 模型,融合了场景图生成目标与图像描述目标,实现了对图像对象间关系的显式建模,并能够同时生成高质量的图像描述和场景图,实验结果证明 ReFormer 在图像描述与场景图生成方面均优于当前的最新模型。
Jul, 2021
关系感知图神经网络与变形器网络结合,同时将本地和全局特征嵌入目标节点,通过注意力融合模块和跳跃连接将全局嵌入与本地嵌入合并,在两个公共数据集和一个工业数据集上验证了其卓越性能。
Feb, 2024
本文提出了利用循环变压器网络(RTNs)对语义相似图像进行密集对应的方法,在迭代过程中估计图像间的空间变换,以及使用这些变换来生成对齐的卷积激活,通过直接估算两幅图像间的变换,而非独立正则化每个图像,我们证明了更高的精度可以得到,同时使用一种基于提出的分类损失的弱监督训练技术。利用 RTNs,在语义对应的多个基准测试中,实现了最先进的性能。
Oct, 2018
我们提出了一种名为 GRT 的图形关系 Transformer 方法,它使用边缘信息来计算转换器中图形关注操作,它在视觉问答任务中取得了很好的效果。
Nov, 2021
提出了一种新颖的场景图生成模型 ——Graph R-CNN,其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络(RePN),能够有效地处理图像中潜在关系的二次数量。同时,我们提出了一种注意力图卷积网络(aGCN),有效地捕捉对象和关系之间的上下文信息。最后,我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成,获得了最先进的性能。
Aug, 2018
提出一种轻量级的一阶场景图生成(SGG)模型,通过充分利用 DETR 解码器的多头自注意力层中学习到的各种关系,使用浅层关系抽取头有效地提取关系图,并考虑到关系抽取任务对于物体检测任务的依赖,提出了一种新颖的关系平滑技术,根据检测到的物体质量自适应地调整关系标签,同时还提出了一个辅助任务 —— 连接性预测任务来预测物体对之间是否存在关系。
Apr, 2024