EMNLPSep, 2021

拓宽视野:Geo-Diverse 视觉常识推理

TL;DR本文构建了 Geo-Diverse Visual Commonsense Reasoning(GD-VCR)数据集,以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型,我们发现它们对于非西方地区的性能显着低于西方地区,并分析了性能差异背后的原因。