探究图像关系以用于图像描述
本文提出了一种新的用于图像描述的 LSTM-C(长短时记忆与复制机制结合)模型,它融合了卷积神经网络和递归神经网络,通过复制机制选择合适的单词描述图像中的新物体,实验结果显示这一模型优于目前深度学习领域的其他模型。
Aug, 2017
本文提出了一种结合图卷积网络(GCN)的视觉语义单元对象相互作用的图形语义和几何建模方法,利用上下文门控注意力模块将当前单词与视觉语义单元对齐,针对 MS-COCO 图像字幕数据集,与现有方法相比报告了更好的结果。
Aug, 2019
本文提出了一种新的基于图结构的 LSTM 网络 (Graph LSTM),将任意形状的超像素作为拓扑结构的节点来自适应构建图拓扑结构,提供更加自然的信息传递路径,并使用自信度驱动的策略逐渐更新节点的隐藏状态和记忆状态。在四个数据集上进行综合评估表明,Graph LSTM 相对于其他最先进的解决方案具有显著的优越性。
Mar, 2016
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文提出了针对图像标题生成问题的 Dual Graph Convolutional Networks (Dual-GCN) 模型,使用 Transformer 和 Curriculum Learning 技术,在单张图片内有效捕获物体间的关系和多张图像之间的特征信息以生成更为准确的标题,实验结果表明该模型在 MS COCO 数据集上表现突出,达到了 BLEU-1 得分 82.2 和 BLEU-2 得分 67.6。
Aug, 2021
该研究致力于解决图像标题生成的问题,提出了一种名为 gLSTM 的扩展型 LSTM 模型,通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中,以更紧密地融合图像内容,同时探索了不同的长度标准化策略用于 beam search,以防止偏爱短句子,在 Flickr8K,Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。
Sep, 2015
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型 LinkNet 在场景图生成方面的效果。
Nov, 2018
本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型,该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系,以几何关注的方式建模。结果表明,这种几何关注对图像描述非常重要,并在 MS-COCO 数据集上的各种标准评估指标上均有改进。
Jun, 2019
本研究提出一种基于标签图叠加框架的多标签识别解决方案,以图卷积网络(GCN)为基础,通过超 impose 技术建立标签相互作用图,并将其与 GCN 及 CNN 的信息交流,以提高特征学习和数据表示。实验表明,该方法大大提高了多标签识别的性能且达到了新的最佳表现。
Nov, 2019
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验,证明了相对于计算成本高的交叉注意方法,CORA 在召回得分上具有优势,同时实现了双编码器的快速计算速度。
Jun, 2024