探究图像关系以用于图像描述

ECCVSep, 2018

Exploring Visual Relationship for Image Captioning

Ting Yao, Yingwei Pan, Yehao Li, Tao Mei

TL;DR本文介绍了一种利用图卷积网络和长短期记忆（GCN-LSTM）结构，将语义和空间对象关系集成到图像编码器中，以生成图像标题的新方法，并在 COCO 图像字幕数据集上开展了广泛的实验，并取得了比现有方法更好的结果。

Abstract

It is always well believed that modeling relationships between objects would be helpful for representing and eventually describing an image. Nevertheless, there has not been evidence in support of the idea on image description generation. In this paper, we introduce a new design to explore the connections between objects for →

image captioning attention-based encoder-decoder framework graph convolutional networks long short-term memory object relationships

发现论文，激发创造

图像生成中引入复制机制，学习新物体

本文提出了一种新的用于图像描述的 LSTM-C（长短时记忆与复制机制结合）模型，它融合了卷积神经网络和递归神经网络，通过复制机制选择合适的单词描述图像中的新物体，实验结果显示这一模型优于目前深度学习领域的其他模型。

Aug, 2017

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

基于图 LSTM 的语义对象分析

本文提出了一种新的基于图结构的 LSTM 网络 (Graph LSTM)，将任意形状的超像素作为拓扑结构的节点来自适应构建图拓扑结构，提供更加自然的信息传递路径，并使用自信度驱动的策略逐渐更新节点的隐藏状态和记忆状态。在四个数据集上进行综合评估表明，Graph LSTM 相对于其他最先进的解决方案具有显著的优越性。

Mar, 2016

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

使用 Transformer 和课程学习的双重图卷积网络用于图像字幕生成

本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型，使用 Transformer 和 Curriculum Learning 技术，在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题，实验结果表明该模型在 MS COCO 数据集上表现突出，达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。

Aug, 2021

引导长短期记忆在图像字幕生成中的应用

该研究致力于解决图像标题生成的问题，提出了一种名为 gLSTM 的扩展型 LSTM 模型，通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中，以更紧密地融合图像内容，同时探索了不同的长度标准化策略用于 beam search，以防止偏爱短句子，在 Flickr8K，Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。

Sep, 2015

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。

Nov, 2018

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

标签图叠加的多标签分类

本研究提出一种基于标签图叠加框架的多标签识别解决方案，以图卷积网络（GCN）为基础，通过超 impose 技术建立标签相互作用图，并将其与 GCN 及 CNN 的信息交流，以提高特征学习和数据表示。实验表明，该方法大大提高了多标签识别的性能且达到了新的最佳表现。

Nov, 2019

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024