Jun, 2016

视觉问答中的人类注意力:人类和深度网络是否注视相同的区域?

TL;DR我们设计了多个游戏化的新颖注意力注释界面,要求对象放大模糊图像的区域以回答有关图像的问题,进而在Visual Question Answering(VQA)中进行了大规模的人类注意力研究,引入了VQA-HAT(Human Attention)数据库集合,将最先进的VQA模型生成的注释地图与人类注意力进行了定性(通过可视化)和定量(通过等级相关性)的评估,总体而言,我们的实验表明,目前VQA中的注意力模型似乎没有关注与人类相同的区域。