本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文提出了一种新的注意力机制,称为主题引导注意力,在图像字幕生成中应用,通过将图像主题整合到注意力模型中作为指导信息,协助选择最重要的图像特征。在微软 COCO 数据集上的实验结果表明,该方法在各种定量指标上具有最先进的性能。
Jul, 2018
研究通过使用新的包含视觉图像和口头描述的数据集,比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制,并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距,并且将软注意机制与视觉显著性进行集成,可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。
Mar, 2019
本篇研究提出一种混合自下而上和自上而下视觉关注机制,能在对象和其他显著图像区域的水平上计算注意力权重,实现更深入图像理解,将其应用于图像字幕生成和视觉问答任务中,取得了优于现有技术的成绩。
Jul, 2017
研究了人类描述场景时自底向上显著性视觉关注和物体引用之间的一致性;提出了一种以显著性为增强因素的图像标题生成模型,结果发现该模型并不明显优于传统方法,但能更好地适用于未知数据。
Apr, 2017
本文提出了一种融合上下文语境的自动图像描述算法,通过自下而上的计算和语义关注的上下文交互作用,成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。
Mar, 2016
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。
本文提出了一种基于生成循环神经网络的图像字幕方法,它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分,并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。
Jun, 2017
本文提出一种量化评估生成的注意力图与人为注释之间一致性的评估指标,并通过强或弱的注意力监督提供不同程度的解决方案来改善注意力的正确性和图注质量,从而使机器感知更接近于人类。
May, 2016