从CLIP中挖掘开放语义:一种关系转换视角的少样本学习方法
利用少量的『类别级别』的语言描述,结合视觉特征分形成一个瓶颈视觉特征(混合原型)并建立一种Transformer机制,以编码这两种形式的丰富语义,并且经过多个数据集的实验证明,该算法能有效提升 few-shot learning 的性能。
Apr, 2021
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文实证表明,CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本/few-shot结果。
Mar, 2022
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
通过引入新的自相关自注意力(CSA)机制,增强了CLIP在语义分割方面的潜力,并且在零样本mIoU方面明显优于现有的SoTA结果和原始的CLIP。
Dec, 2023
通过引入 ODG-CLIP,我们利用视觉语言模型CLIP的语义优势来解决开放域泛化中的局限性,实现了在不同领域和类别之间进行泛化的挑战。我们提出了三个主要创新:首先,我们将ODG看作一个多类别分类问题,包括已知类别和新类别,我们使用一个独特的提示来检测未知类别样本,并使用稳定扩散模型生成开放类别的代理图像。其次,我们设计了一种新颖的可视化风格中心提示学习机制,以实现针对特定领域的分类权重。最后,我们通过将提示空间中得出的类别区分知识注入图像,增强了CLIP的视觉嵌入的真实性,并引入了一个新的目标来保证在不同领域中这种注入的语义一致性。通过在不同数据集上进行严格测试,包括封闭和开放集DG背景,ODG-CLIP显示出明显的优越性,性能提升在8%-16%之间。
Mar, 2024
我们提出了一种补偿微调过程的方法,利用具有丰富语义信息的辅助监督作为锚点来保留原始的CLIP特征空间,从而保持了OOD泛化性能,并在领域迁移和零样本学习基准上取得了新的最先进结果。
Apr, 2024
本研究解决了CLIP模型在图像分类中的解读与分析问题,尤其是如何理解视觉和语言两个模态之间的共同概念。通过文本概念的解释方法,我们分析了13个不同架构、规模和预训练数据集的CLIP模型,发现它们的互知识关系有效影响了零样本预测的结果。这一方法为理解CLIP的零样本分类决策提供了有效且易于人类理解的方式。
Oct, 2024