Feb, 2019

利用解释使视觉和语言模型更加基于实际 - HINT方法

TL;DR本文提出了一种名为HINT的通用方法,通过有效利用人类演示来改善视觉基础,以优化深度神经网络的对视觉概念的敏感性,并在视觉问答和图像描述任务中应用,在仅利用6%的训练数据的人类关注示例下,优于VQA-CP和强健字幕的主要方法。