Nov, 2018

基于视觉支持的语言学习的视觉蕴涵任务

TL;DR本文介绍了一项新的推理任务 - 视觉蕴含(Visual Entailment,VE),VE 与传统的文本蕴含(Textual Entailment,TE)任务不同,它的前提是由图像定义的,而不是像 TE 任务中那样由自然语言句子定义的。在 Stanford 自然语言推理语料库和 Flickr30k 的基础上,提出了一个新的数据集 SNLI-VE,并介绍了一种可解释的视觉蕴含模型(EVE)来解决 VE 问题。此外,本文还将 EVE 和其他几种最先进的基于视觉问答(VQA)的模型在 SNLI-VE 数据集上进行了评估,促进了基于语境的语言理解,并提供了关于现代 VQA 模型性能的见识。