Mar, 2024

LLM 见视觉语言模型用于零样本单类别分类

TL;DR我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉 - 语言预训练模型(例如 CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。