May, 2023

ImageNetVC:1000 个 ImageNet 类别上的零样本视觉常识评估

TL;DR本文利用人为标注的数据集 ImageNetVC,探究了先前被作为通用接口使用的 预训练语言模型(PLMs)和其带视觉增强的对应模型(VaLMs)的视觉常识知识掌握情况及其影响因素。同时,通过研究大规模模型的因素,提供了对视觉常识知识丰富的自然语言模型发展的启示。