人类认知风格下使用整体上下文信息进行图像标题生成的探索

ICCVOct, 2019

人类认知风格下使用整体上下文信息进行图像标题生成的探索

Exploring Overall Contextual Information for Image Captioning in Human-Like Cognitive Style

Hongwei Ge, Zehang Yan, Kai Zhang, Mingde Zhao, Liang Sun

TL;DR本文探讨利用类人认知风格，即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响，本文首先提出了一种利用双向 LSTM 的相互援助网络结构（MaBi-LSTMs），以获取整体上下文信息。其次，为了提高跨领域模型生成更高质量的句子，我们进一步开发了跨模态注意机制来修饰两个句子，通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明，该模型改善了编码器解码器模型的性能，并取得了最先进的结果。

Abstract

image captioning is a research hotspot where encoder-decoder models combining convolutional neural network (CNN) and long short-term memory (LSTM) achieve promising results. Despite significant progress, these mo

image captioning encoder-decoder models bidirectional lstms overall contextual information cross-modal attention mechanism

发现论文，激发创造

使用深度双向 LSTM 进行图像字幕生成

本研究提出了一种端到端可训练的深度双向 LSTM 模型，用于图像字幕生成，增加了数据增强技术，并在三个基准数据集上进行了评估，证明其性能竞争力强。

Apr, 2016

CNN+CNN：用于图像字幕生成的卷积解码器

本文在图像字幕生成方面，提出了一种仅利用卷积神经网络生成字幕的框架，通过并行计算，训练速度比基于 LSTM 的模型快 3 倍，同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。

May, 2018

卷积图像描述

本文提出了一种卷积图像字幕生成技术，并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能，同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析，提出了卷积语言生成方法的有力证据。

Nov, 2017

实体感知图像标题生成

提出了一种基于 CNN-LSTM 模型和知识图的算法来解决图像描述中缺少特定信息的问题，该模型通过填充来自于 hashtags 的具体命名实体，使得生成的基于输入图像的模板描述信息更加丰富，实验结果表明该模型在多种评价指标上显著优于单模态基准线。

Apr, 2018

视频描述的双向长短期记忆网络

提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory，该框架综合保留了视频的信息，并在常用基准测试上验证了该框架的有效性。

Jun, 2016

引导长短期记忆在图像字幕生成中的应用

该研究致力于解决图像标题生成的问题，提出了一种名为 gLSTM 的扩展型 LSTM 模型，通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中，以更紧密地融合图像内容，同时探索了不同的长度标准化策略用于 beam search，以防止偏爱短句子，在 Flickr8K，Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。

Sep, 2015

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

关注你：带有上下文序列记忆网络的个性化图像字幕生成

本文探讨了图像字幕的个性化问题，提出了一种名为 Context Sequence Memory Network（CSMN）的新型字幕模型，结合先前生成的单词的记忆信息以及有关个人先前文档中使用的词汇的前置知识生成对查询图像的描述性句子，并在新收集的 Instagram 数据集上进行应用，展示了其对状态 - of-the-art 字幕模型的性能改进.

Apr, 2017

新闻图片标题生成的视觉感知上下文建模

新闻图像字幕生成的自动化方法通过设计面部命名模块和检索策略以优化视觉信息处理，并超越之前的最佳性能表现。

Aug, 2023