Jun, 2023

视觉语言模型的零样本识别挑战:粒度和正确性

TL;DR本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉-语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。