ICCVAug, 2023

学习简洁和描述性的视觉识别属性

TL;DR最近基础模型的进展为可解释的视觉识别提供了新的机会,通过查询大型语言模型获取描述每个类别的属性,然后应用视觉语言模型通过这些属性对图像进行分类,我们的研究发现,大量的 LLM 生成的属性与随机词几乎没有差别,我们提出了一种新的学习搜索方法来发现那些简明的属性集,该方法在 CUB 数据集上使用仅 32 个属性来区分 200 个鸟类的性能接近于大量 LLM 生成的属性(例如 CUB 的 10,000 个属性),此外,我们的新范式还展示了几个附加优势:人类的更高可解释性和互动性,以及总结知识的能力。