名称背后的含义:超越图像识别分类指数
本文介绍了一种基于最大边距框架的语义流形识别方法,并提出了半监督词汇知识学习的概念,从而实现监督学习、零样本学习和开放式识别的统一框架。该方法在 AwA 和 ImageNet 数据集上的结果显示出了改进。
Apr, 2016
本文研究了一种高度通用的图像识别场景,提出了一种名为 'Generalized Category Discovery' 的方法,使用视觉变换器、对比表示学习和半监督k均值方法对未标记的数据进行分类。
Jan, 2022
本文从有标记集合出发,关注如何更好地支持无标记数据集的新类别发掘,提出了一个基于语义相似度的标记集合选取方法,并定义了一个度量有标记集合与无标记集合之间语义相似度的数学方法,实验结果表明在低相似度环境下使用标记信息可能会导致次优结果。
Sep, 2022
使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数,以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明,该解决方案可以轻松集成在图像分类和物体检测管道中,在多种情况下产生显著的性能增益,并提供模型偏差和标注误差的见解。
Apr, 2023
该论文提出了一种名为“无词汇图像分类(VIC)”的新任务,通过使用外部视觉语言数据库(即语义空间)来解决这个任务,为此提出了一个名为 CaSED 的方法,它利用预训练的视觉语言模型和外部视觉语言数据库在训练自由的情况下来完成任务,与其他复杂的视觉语言框架相比,在参数更少的情况下具有更好的分类效果。
Jun, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
本文提出了一种名为 WaffleCLIP 的框架,通过简单地替换 LLM 生成的描述符为字符和词串,而无需查询外部模型,就在大量的视觉分类任务中实现类似的性能提升,并通过实验研究了 LLM 生成的描述符引入附加语义的影响和缺陷。
Jun, 2023
该研究提出了一种新的描述条件(DesCo)学习范式,利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力,从而在零样本检测环境下,超越了先前的最先进模型,以提高物体识别的准确性。
Jun, 2023
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉-语言预训练模型(例如CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024
通过演化搜索算法和大语言模型的上下文学习能力,我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法,并在五个细粒度的iNaturalist数据集上比最先进的基准方法提高了18.4%,在两个KikiBouba数据集上提高了22.2%。
Apr, 2024