May, 2022

预训练的单模态和多模态模型中的视觉常识

TL;DR本文研究了图像和语言的单模态和多模态模型对视觉显著属性的度量精度,使用Visual Commonsense Tests数据集验证了多模态模型在属性分布重构中优于单模态模型,但仍然存在报告偏差问题,适当增加模型大小并不能提高视觉常识的性能,表明关键在于数据。