神经图像描述中的注意力正确性

AAAIMay, 2016

Attention Correctness in Neural Image Captioning

Chenxi Liu, Junhua Mao, Fei Sha, Alan Yuille

TL;DR本文提出一种量化评估生成的注意力图与人为注释之间一致性的评估指标，并通过强或弱的注意力监督提供不同程度的解决方案来改善注意力的正确性和图注质量，从而使机器感知更接近于人类。

Abstract

attention mechanisms have recently been introduced in deep learning for various tasks in natural language processing and computer vision. But despite their popularity, the "correctness" of the implicitly-learned

attention mechanisms deep learning neural image captioning supervised learning machine perception

发现论文，激发创造

强化注意力：利用人类的注意力进行图像字幕生成

使用两种类型的注意力机制：从上至下的语言传达信息和自底向上的视觉信号，通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中，从而提高了效果。

Mar, 2019

探究视觉问答中人类注意力监督

本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中，提出人类注意力网络（HAN）来生成类似于人类的注意力图，并将其应用于 VQA v2.0 数据集中。实验结果表明，该方法能够产生更准确的注意力机制和更好的性能。

Sep, 2017

图像字幕中的人类注意力：数据集和分析

研究通过使用新的包含视觉图像和口头描述的数据集，比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制，并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距，并且将软注意机制与视觉显著性进行集成，可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。

Mar, 2019

基于文本引导的图像字幕注意力模型

本研究提出了一种基于文本引导注意力模型的图像字幕生成方法，其能够通过联合图片及相应说明文本的训练数据来实现视觉关注，有效地区分图像中的细小或混淆对象，进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。

Dec, 2016

图像分类的明确建模注意力图

本文介绍了一种新的自我注意力模块，使用一种明确建模的注意力映射，利用几何先验来提高图像分类的准确性，实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%，在参数和计算量分别减少 6.4% 和 6.7% 的情况下，相对于 AA-ResNet152 准确率提高了 0.9%。

Jun, 2020

基于主题引导的图像描述注意力模型

本文提出了一种新的注意力机制，称为主题引导注意力，在图像字幕生成中应用，通过将图像主题整合到注意力模型中作为指导信息，协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明，该方法在各种定量指标上具有最先进的性能。

Jul, 2018

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017

图像字幕注意力区域

提出了基于注意力机制的图像描述模型，该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系，并运用空间变换器来生成最佳的区域关注机制，达到了 MSCOCO 数据集上的最佳结果。

Dec, 2016

引导式关注推理网络：告诉我该看哪里

利用弱监督学习和注意力图，我们提出了一种新的建模方法，使得注意力图成为端到端训练的自然组成部分，并通过直接从网络本身探索监督来直接在这些图上提供自我指导，从而成功地解决了以前方法中的缺点，并在语义分割任务上优于现有技术。

Feb, 2018

语义关注下的图像字幕生成

本文提出了一种融合上下文语境的自动图像描述算法，通过自下而上的计算和语义关注的上下文交互作用，成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。

Mar, 2016