ICCVMar, 2019

图像字幕中的人类注意力:数据集和分析

TL;DR研究通过使用新的包含视觉图像和口头描述的数据集,比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制,并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距,并且将软注意机制与视觉显著性进行集成,可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。