通过视觉哨兵实现自适应关注的图像字幕

CVPRDec, 2016

通过视觉哨兵实现自适应关注的图像字幕

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

Jiasen Lu, Caiming Xiong, Devi Parikh, Richard Socher

TL;DR本文提出了一种新的自适应注意力模型，具有视觉哨兵，在每个时间步骤，模型决定是关注图像还是关注视觉哨兵，通过这种方式针对性地提取有意义的信息以生成图像字幕，实验证明我们的方法在 COCO 图像字幕 2015 年挑战数据集和 Flickr30K 上的效果优越并创造了新的最佳表现。

Abstract

attention-based neural encoder-decoder frameworks have been widely adopted for image captioning. Most methods force visual attention to be active for every generated word. However, the decoder likely requires lit

attention-based neural encoder-decoder image captioning adaptive attention model visual sentinel state-of-the-art

发现论文，激发创造

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

自适应注意力的分层 LSTM 用于视觉字幕生成

通过引入自适应注意力机制以及分层 LSTM（Hierarchical LSTM），提出了一种基于注意力的编码器 - 解码器框架，并在图像和视频描述生成领域通过应用空间或时间注意力机制进行预测。实验表明所提出的框架在图像和视频描述生成任务中均取得了最先进的性能，同时还充分探讨了其各个组成部分的重要贡献。

Dec, 2018

使用视觉注意力的神经图像字幕生成

该论文介绍了一种基于注意力机制的模型，通过机器翻译和物体检测实现图像内容的自动描述，通过最大化变分下界确定性训练该模型，并展示了该模型在生成输出序列时能够自动学习聚焦于显著物体。三个基准数据集上的性能表现也证明了该模型的有效性。

Feb, 2015

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

基于区域注意力和场景分解的图像字幕定位与描述对齐

本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法，将视觉感知与文本描述相结合，使用场景特定的上下文信息对句子中的词语生成进行调整，在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。

Jun, 2015

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

具有调整时序注意力的分层 LSTM 用于视频字幕生成

通过引入 hierarchical LSTM 和 adjusted temporal attention 的方式，利用 temporal attention 来选择特定的帧来预测相关的单词，并决定是否及如何利用视觉和语言上下文信息，以支持视频字幕生成的多层次模型设计，最终在 MSVD 和 MSR-VTT 数据集上优于现有方法。

Jun, 2017

自适应对齐图像描述生成：自适应关注时间

本研究提出了一种名为 AAT 的新颖注意力模型，它能够自适应地对齐源（图片）和目标（文字描述）以进行图像字幕生成，并验证了 AAT 对于提高图像字幕生成任务的性能表现优于当前先进模型。

Sep, 2019