EMNLPNov, 2022

Winoground 的困难在哪里?调查视觉语言组合的失败

TL;DR通过一系列实验和数据分析,发现视觉和语言模型中融合文字和视觉表示的挑战可能不在于组合性语言理解,而在于其他能力,如常识推理、低分辨率图像中小物体的定位等,并提出数据扩充等解决方案。