CountCLIP -- [Re] 教 CLIP 数到十

Jun, 2024

CountCLIP -- [Re] Teaching CLIP to Count to Ten

Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar

TL;DR本研究重现了“教CLIP计算到十”的研究，该研究通过引入一个计数-对比损失项，对CLIP模型进行微调，以提高图像的零样本计数准确性并保持零样本分类性能。

Abstract

Large vision-language models (VLMs) are shown to learn rich joint image-text representations enabling high performances in relevant downstream tasks. However, they fail to showcase their →

发现论文，激发创造

CLIP-Count: 基于文本引导的零样本物体计数

本研究提出了一种新的技术CLIP-Count，利用预处理好的图像与文本对齐知识，在零样本的情况下，估计开放词汇对象的密度图，用于类无关物体计数，并在FSC-147、CARPK和ShanghaiTech人群计数数据集上进行了广泛的实验，结果表明我们的方法实现了零样本物体计数的最高精度和泛化性能。

May, 2023

更多上下文，少了干扰: 基于推断和调节上下文属性的视觉分类

基于对人类视觉知觉过程的启示，本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法PerceptionCLIP，并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。

Aug, 2023

语言-视觉模型下的零样本物体计数

零样本目标计数 (ZSC) 是一种新的设置，只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法，该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言-视觉模型构建类原型，我们选择包含目标对象的补丁，同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。

Sep, 2023

消除CLIP数据的神秘

以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP，在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果，MetaCLIP在零样本ImageNet分类中达到70.8%的准确率，并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。

Sep, 2023

点、线段和计数：一种用于对象计数的普遍框架

基于检测的PseCo框架将SAM和CLIP结合起来，实现了对少样本和零样本的准确目标计数，通过点定位、分割和计数等步骤解决了效率和小物体区分等难题。

Nov, 2023

VLCounter：基于文本的视觉表示方法用于零样本物体计数

零样例物体计数的一阶段基线方法VLCounter是通过探索CLIP的语义补丁嵌入的内在关联，结合三种模块来实现；SPT用于获得目标高亮表示，LAT用于将语义补丁相似度转化为适合计数任务的形式，SaSC用于保持对未见类的泛化能力，并通过在FSC147，CARPK和PUCPR+上的广泛实验证明了VLCounter的好处。

Dec, 2023

通过语言引导的模板学习提升零样本计数

通过深入研究语言引导示例学习，论文提出了一种新颖的ExpressCount，用于改进零样本物体计数。通过语言导向的示例感知器和下游视觉零样本计数管道构成的ExpressCount，在寻找细粒度特征方面表现出色，充分利用了来自大型语言模型的丰富语义先验知识，并显著提升了任意类别的零样本学习能力，从而为发展和验证基于语言的计数模型开辟了新的途径。大量实验证明了ExpressCount的最先进性能，甚至展示了与部分特定类别计数模型相媲美的准确性。

Feb, 2024

训练无关的类别不可知计数的简单而有效的基线

不需要训练的前提下，本研究提出了一种直接的解决方案，通过利用预先存在的基础模型进行实例级分割，通过四项关键技术的结合，实现了性能的显著提升，与基于训练的方法相媲美。

Mar, 2024

训练CLIP以发展序数回归的数字感知

本研究解决了在计算机视觉领域中，现有预训练视觉语言模型在序数回归任务中的局限性，特别是它们对数字感知的处理不足。我们提出了一种称为NumCLIP的方法，通过细分图像到数字匹配问题并引入新的基于跨模态排名的正则化损失，显著提升了模型的定量理解能力。实验结果显示，NumCLIP在历史图像定年和图像美学评估任务上分别实现了10%和3.83%的准确率提升。

Aug, 2024

关注提示：一种全新基准用于基于提示的类别无关计数

本文解决了计算机视觉中类别无关计数的评估问题，指出现有基准在评估模型理解计数对象方面的不足。提出的Prompt-Aware Counting（PrACo）基准通过两项针对性测试和评价指标，显著提高了评估的准确性，发现一些最先进的方法在标准计数指标上表现出色，但在理解输入提示时存在明显缺陷。

Sep, 2024