强化注意力：利用人类的注意力进行图像字幕生成

ECCVMar, 2019

强化注意力：利用人类的注意力进行图像字幕生成

Boosted Attention: Leveraging Human Attention for Image Captioning

Shi Chen, Qi Zhao

TL;DR使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Abstract

visual attention has shown usefulness in image captioning, with the goal of enabling a caption model to selectively focus on regions of interest. Existing models typically rely on top-down language information an

visual attention image captioning top-down attention supervision boosted attention

发现论文，激发创造

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

图像字幕中的人类注意力：数据集和分析

研究通过使用新的包含视觉图像和口头描述的数据集，比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制，并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距，并且将软注意机制与视觉显著性进行集成，可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。

Mar, 2019

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Jul, 2017

关注图像字幕模型生成的描述

研究了人类描述场景时自底向上显著性视觉关注和物体引用之间的一致性；提出了一种以显著性为增强因素的图像标题生成模型，结果发现该模型并不明显优于传统方法，但能更好地适用于未知数据。

Apr, 2017

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016

注重显著性：使用显著性和上下文注意力进行图像字幕生成

本文提出了一种基于生成循环神经网络的图像字幕方法，它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分，并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。

Jun, 2017

神经图像描述中的注意力正确性

本文提出一种量化评估生成的注意力图与人为注释之间一致性的评估指标，并通过强或弱的注意力监督提供不同程度的解决方案来改善注意力的正确性和图注质量，从而使机器感知更接近于人类。

May, 2016