关注图像字幕模型生成的描述
使用两种类型的注意力机制:从上至下的语言传达信息和自底向上的视觉信号,通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中,从而提高了效果。
Mar, 2019
本文提出了基于标题引导的视觉显著性方法,通过训练数据隐式的学习到现代编码器解码器网络中的区域到单词的映射,而不引入显式的注意力层,从而分析各种现有模型结构,并提供更准确的显著性热图。
Dec, 2016
研究通过使用新的包含视觉图像和口头描述的数据集,比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制,并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距,并且将软注意机制与视觉显著性进行集成,可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。
Mar, 2019
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
本文提出了一种基于生成循环神经网络的图像字幕方法,它可以利用一个显著性预测模型在生成字幕时集中于图像不同的部分,并通过大规模数据集上的广泛定量和定性实验证明该模型相比不带显著性和不同的最先进的显著性与字幕结合方法具有卓越的性能。
Jun, 2017
本文提出了一种融合上下文语境的自动图像描述算法,通过自下而上的计算和语义关注的上下文交互作用,成功在 Microsoft COCO 和 Flickr30K 两个公开基准测试中取得了明显的优于现有算法的结果。
Mar, 2016
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
提出一种基于自然语言描述生成图像的生成模型,采用微软 COCO 数据集进行训练,通过比较实验结果,证明该模型的生成图像质量更高且可以生成新颖的场景构图。
Nov, 2015
本篇研究提出一种混合自下而上和自上而下视觉关注机制,能在对象和其他显著图像区域的水平上计算注意力权重,实现更深入图像理解,将其应用于图像字幕生成和视觉问答任务中,取得了优于现有技术的成绩。
Jul, 2017
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015