使用两种类型的注意力机制:从上至下的语言传达信息和自底向上的视觉信号,通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中,从而提高了效果。
Mar, 2019
本研究主要针对如何将注意力监督应用于基于 Attention 机制的视觉问答任务中,提出人类注意力网络(HAN)来生成类似于人类的注意力图,并将其应用于 VQA v2.0 数据集中。实验结果表明,该方法能够产生更准确的注意力机制和更好的性能。
Sep, 2017
研究通过使用新的包含视觉图像和口头描述的数据集,比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制,并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距,并且将软注意机制与视觉显著性进行集成,可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文介绍了一种新的自我注意力模块,使用一种明确建模的注意力映射,利用几何先验来提高图像分类的准确性,实验证明该方法在 ImageNet ILSVRC 中的准确性提升了 2.2%,在参数和计算量分别减少 6.4% 和 6.7% 的情况下,相对于 AA-ResNet152 准确率提高了 0.9%。
Jun, 2020
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
Jul, 2018
本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能,通过提出一种名为 GEAN 的视频字幕模型,并采用人眼注视追踪数据来提供生成句子的时空注意力,以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估,证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能,并展示了该方法在 VAS 数据集和标准数据集(如 LSMDC 和 Hollywood2)中实现了领先的性能,成为最先进的视频字幕生成方法。
Jul, 2017
提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。
利用弱监督学习和注意力图,我们提出了一种新的建模方法,使得注意力图成为端到端训练的自然组成部分,并通过直接从网络本身探索监督来直接在这些图上提供自我指导,从而成功地解决了以前方法中的缺点,并在语义分割任务上优于现有技术。
Feb, 2018
本文提出了一种融合上下文语境的自动图像描述算法,通过自下而上的计算和语义关注的上下文交互作用,成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。
Mar, 2016