AAAINov, 2019

DualVD:一种用于视觉对话中深度视觉理解的自适应双编码模型

TL;DR该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用,为我们理解人类认知在视觉对话中的作用提供了见解。