May, 2021
e-ViL: 视觉语言任务中自然语言解释的数据集和基准测试
e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks
TL;DR本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释,并涉及四个模型和三个数据集。研究人员还提出了一种新模型,该模型结合了 UNITER 和 GPT-2,对所有数据集的现有技术水平取得了很大的突破。