CVPRApr, 2022
Winoground: 探究视觉和语言模型的视觉语言组成性
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality
Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams...
TL;DR介绍了一项新的任务和数据集 Winoground,用于评估视觉和语言模型进行视觉 - 语言组成推理的能力,展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况,并探讨如何改进模型的方法。