为视觉和语言模型命名类别的学习
本论文提出了一种基于名称的无监督零样本学习方法,通过区别性地学习单词表示,使得类别和属性名称的相似性与视觉相似性相符,突破了传统零样本学习方法依赖属性特征标注的限制,并且能够在纯文本数据上进行训练,实验结果表明该方法在三个基准数据集上取得了最先进的性能。
May, 2017
本研究分析了基于大规模数据的视觉-语言模型的真正零样本能力及其属性基零样本学习能力,评估了现有模型对不同基准测试的性能表现及影响因素。结果表明该模型主要通过识别语言中的类标签实现零样本学习,属性数的变化会显著影响其表现。
Sep, 2022
该研究提出了一种基于语义流形的加权最大间隔框架解决零样本学习中面临的挑战,包括有限标记数据、大量标签分类和开放集分类。在Animal with Attributes和ImageNet数据集上,模型表现得到了显著提高,类词汇量最高可达310K。
Jan, 2023
本论文使用非参数方法建立图像之间的关系,设计出一种基于视觉语言模型的图像分类方法,使模型在图像分类问题上能更好地解决零样本和半监督问题,将语义信息映射到图像分类上,并在ImageNet数据集中取得了约50%的性能提升。
Apr, 2023
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉-语言预训练模型(例如CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024
通过演化搜索算法和大语言模型的上下文学习能力,我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法,并在五个细粒度的iNaturalist数据集上比最先进的基准方法提高了18.4%,在两个KikiBouba数据集上提高了22.2%。
Apr, 2024
我们提出了一种名为BaFTA的新型零样本学习算法,通过在投影嵌入空间中使用在线聚类来估计类别质心并动态地聚合预测,从而在效果和效率上持续优于最先进的测试时间自适应方法。
Jun, 2024
本研究解决了视觉语言预训练中分类方法的有效性问题,提出了一种名为SuperClass的简化分类方法,直接利用标记的原始文本作为监督分类标签,省去了文本编码的需要。研究表明,SuperClass在多种下游任务中表现突出,潜在影响在于为视觉语言任务提供了一种更高效的分类方法。
Nov, 2024
本研究提出了一种针对图像-文本数据的超级简单分类方法——SuperClass,解决了传统对比学习方法CLIP在文本编码必要性上的问题。SuperClass利用原始文本直接作为监督分类标签,表现出在多个下游任务上的优越性能,对比于CLIP,展示了在模型规模、训练时长或数据规模上的良好扩展性和效果。
Nov, 2024