图像字幕生成：物体到文字的转换

Jun, 2019

图像字幕生成：物体到文字的转换

Image Captioning: Transforming Objects into Words

Simao Herdade, Armin Kappeler, Kofi Boakye, Joao Soares

TL;DR本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Abstract

image captioning models typically follow an encoder-decoder architecture which uses abstract image feature vectors as input to the encoder. One of the most successful algorithms uses feature vectors extracted fro

image captioning encoder-decoder architecture object relation transformer spatial relationship geometric attention

发现论文，激发创造

基于图像 Transformer 的图像字幕生成

本文介绍了一种基于 transformer 架构、包括编码和解码变换器的模型 —— 图片 transformer，它通过适应图片的结构提高了自动图像描述的性能，并在 MSCOCO 离线和在线测试基准中取得了新的最佳成绩。

Apr, 2020

通过捕获物体间的关系提升航空图像中的检测能力

基于 transformer 的方法在三个基准测试中表现出一致的性能提升，特别是在 DOTA-v1.5 和 HRSC 2016 上名列前茅，相对于基线方法分别增加了 1.59 mAP 在 DOTA-v1.0、4.88 mAP 在 DOTA-v1.5 和 2.1 mAP 在 HRSC 2016。

Apr, 2024

ReFormer: 用于图像字幕的关系 Transformer

提出了一种新的神经网络结构 ReFormer，该网络基于 Transformer 模型，融合了场景图生成目标与图像描述目标，实现了对图像对象间关系的显式建模，并能够同时生成高质量的图像描述和场景图，实验结果证明 ReFormer 在图像描述与场景图生成方面均优于当前的最新模型。

Jul, 2021

探究图像关系以用于图像描述

本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Sep, 2018

VieCap4H-VLSP 2021：基于注意力机制的对象关系变换器在越南图片字幕生成中的性能优化

本研究提出了一种有效的方法来改进基于转换器的图像理解方法，通过在对象关系转换器结构上扩展 Attention on Attention 机制，实验表明我们的方法在 VLSP 举办的 Image Captioning 共享任务的公共测试和私人测试中显著优于原始结构。

Nov, 2022

Transformer 能否捕获物体之间的空间关系？

当前计算机视觉系统在识别实物基础空间关系方面的性能较差，通过提出了精确的关系定义以允许对基准数据集进行一致的标注，并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构，并证明其胜过所有当前方法，这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。

Mar, 2024

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016

从标题和边界框中学习关联

本研究提出一种弱监督学习方法，通过利用图像标题和对象边界框注释作为唯一的监督信息来预测图像中各种实体之间的关系。我们使用自上而下的关注机制将标题中的实体对齐到图像中的对象，然后利用标题的语法结构将关系对齐。我们使用这些对齐来训练关系分类网络，从而获得基于现实的字幕和稠密的关系。我们在 Visual Genome 数据集上展示了我们模型的有效性，其关系的召回率达到 15%（@50）和 25%（@100）。我们还展示了该模型成功预测了与相应字幕中不存在的关系。

Dec, 2019