Apr, 2023

利用视觉语言基础模型进行多对象场景下的零样本内分布检测

TL;DR本文提出了一种新的问题设置,称为 in-distribution(ID)检测,其中通过使用 CLIP 功能的全局和局部视觉文本对齐,我们可以将包含 ID 对象的图像识别为 ID 图像,并将缺少 ID 对象的图像识别为 OOD 图像,并且实验表明,GL-MCM 在多对象数据集和单对象 ImageNet 基准上优于比较方法。