ReFormer: 用于图像字幕的关系 Transformer

Jul, 2021

ReFormer: 用于图像字幕的关系 Transformer

ReFormer: The Relational Transformer for Image Captioning

Xuewen Yang, Yingru Liu, Xin Wang

TL;DR提出了一种新的神经网络结构 ReFormer，该网络基于 Transformer 模型，融合了场景图生成目标与图像描述目标，实现了对图像对象间关系的显式建模，并能够同时生成高质量的图像描述和场景图，实验结果证明 ReFormer 在图像描述与场景图生成方面均优于当前的最新模型。

Abstract

image captioning is shown to be able to achieve a better performance by using scene graphs to represent the relations of objects in the image. The current captioning encoders generally use a Graph Convolutional N

image captioning reformer scene graphs relation information transformer model

发现论文，激发创造

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

关系变换网络

该论文提出了一种新颖的 transformer 模型，用于场景图生成和关系预测，利用编码器 - 解码器架构和节点和边的丰富特征嵌入，通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互，并引入适用于处理解码器中的边的新的位置嵌入。

Apr, 2020

探究图像关系以用于图像描述

本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Sep, 2018

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

扩散模型中的关系矫正

通过改进文本编码器和使用异构图卷积网络模型 (HGCN)，我们提出了一种名为关系修正的新任务，以确保大型文本到图像扩散模型能够准确表示特定的视觉关系。我们在包含关系词和反转物体顺序的提示对中进行了优化，保留了文本编码器和扩散模型的参数，从而在处理无关描述时保持了模型的稳健性，并在一个多样的关系数据集上验证了我们的方法，显示出在生成具有精确视觉关系的图像方面的定量和定性改进。

Mar, 2024

R$^3$Net: 基于关系嵌入的表示重建网络用于变化描述

本文提出了一个基于关系嵌入的表示重建网络（R3Net）来明确区分真实变化和大量混乱和无关变化，并引入了外部语法骨架预测器（SSP）来增强变化定位和字幕生成之间的语义交互，实验结果表明，所提出的方法在两个公共数据集上达到了最先进的水平。

Oct, 2021

关系图变换器：用于知识图表示的关系图转换器

本研究提出了一种新型变压器架构 Relphormer，其中引入 Triple2Seq 来动态采样上下文化子图序列作为输入以解决知识图谱中异构结构和语义信息难以捕获的问题，并提出了一种 novel self-attention 机制以编码关系信息。实验结果表明，相比基线模型，Relphormer 获得了更好的性能。

May, 2022

通过全局和局部关系交互进行欺诈检测

关系感知图神经网络与变形器网络结合，同时将本地和全局特征嵌入目标节点，通过注意力融合模块和跳跃连接将全局嵌入与本地嵌入合并，在两个公共数据集和一个工业数据集上验证了其卓越性能。

Feb, 2024

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。

Nov, 2018