Aug, 2016

与人类视线互动的神经图像字幕生成

TL;DR通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。