利用大型语言模型演变可解释的视觉分类器
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数,以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明,该解决方案可以轻松集成在图像分类和物体检测管道中,在多种情况下产生显著的性能增益,并提供模型偏差和标注误差的见解。
Apr, 2023
该论文提出了一种名为“无词汇图像分类(VIC)”的新任务,通过使用外部视觉语言数据库(即语义空间)来解决这个任务,为此提出了一个名为 CaSED 的方法,它利用预训练的视觉语言模型和外部视觉语言数据库在训练自由的情况下来完成任务,与其他复杂的视觉语言框架相比,在参数更少的情况下具有更好的分类效果。
Jun, 2023
本文提出了一种名为 WaffleCLIP 的框架,通过简单地替换 LLM 生成的描述符为字符和词串,而无需查询外部模型,就在大量的视觉分类任务中实现类似的性能提升,并通过实验研究了 LLM 生成的描述符引入附加语义的影响和缺陷。
Jun, 2023
最近基础模型的进展为可解释的视觉识别提供了新的机会,通过查询大型语言模型获取描述每个类别的属性,然后应用视觉语言模型通过这些属性对图像进行分类,我们的研究发现,大量的LLM生成的属性与随机词几乎没有差别,我们提出了一种新的学习搜索方法来发现那些简明的属性集,该方法在CUB数据集上使用仅32个属性来区分200个鸟类的性能接近于大量LLM生成的属性(例如CUB的10,000个属性),此外,我们的新范式还展示了几个附加优势:人类的更高可解释性和互动性,以及总结知识的能力。
Aug, 2023
利用大型语言模型解释视觉模型的学习特征,通过训练神经网络建立图像分类器和语言模型之间的连接,生成大量的句子来解释分类器学习到的特征,并提取最频繁的词语,增强图像分类器的解释性和鲁棒性。
Sep, 2023
一种提高图像分类的视觉语言模型(如CLIP)性能的有希望方法是通过扩展类别描述(即提示)与相关属性结合,通过使用棕色麻雀代替麻雀等方式。然而,当前的零样本方法无论目标类别之间的共同点如何,仍然会选择一组属性,可能提供了无法区分它们的有用信息。我们提出了一种名为Follow-up Differential Descriptions(FuDD)的零样本方法,该方法为每个数据集量身定制类别描述,并生成更好区分目标类别的新属性。在实验中,FuDD在12个数据集上始终优于通用描述集合和朴素的LLM生成描述,表明不同描述是解决类别模糊的有效工具,否则会显著降低性能。我们还展示了FuDD生成的高质量自然语言类别描述与少样本适应方法在性能上有可比性。
Nov, 2023
将视觉语言模型(VLMs)与大型语言模型(LLMs)相结合的迭代优化与视觉反馈方法,显著提高了图像分类性能,并产生了可解释和稳健的特征描述符。
Nov, 2023
最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。
Feb, 2024
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉-语言预训练模型(例如CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024