Aug, 2018

基于注意力监控挖掘的视觉驻留解释性视觉问答

TL;DR本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。