CountCLIP -- [Re] 教 CLIP 数到十
本研究提出了一种新的技术CLIP-Count,利用预处理好的图像与文本对齐知识,在零样本的情况下,估计开放词汇对象的密度图,用于类无关物体计数, 并在FSC-147、CARPK和ShanghaiTech人群计数数据集上进行了广泛的实验,结果表明我们的方法实现了零样本物体计数的最高精度和泛化性能。
May, 2023
基于对人类视觉知觉过程的启示,本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法PerceptionCLIP,并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。
Aug, 2023
零样本目标计数 (ZSC) 是一种新的设置,只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法,该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言-视觉模型构建类原型,我们选择包含目标对象的补丁,同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。
Sep, 2023
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
基于检测的PseCo框架将SAM和CLIP结合起来,实现了对少样本和零样本的准确目标计数,通过点定位、分割和计数等步骤解决了效率和小物体区分等难题。
Nov, 2023
零样例物体计数的一阶段基线方法VLCounter是通过探索CLIP的语义补丁嵌入的内在关联,结合三种模块来实现;SPT用于获得目标高亮表示,LAT用于将语义补丁相似度转化为适合计数任务的形式,SaSC用于保持对未见类的泛化能力,并通过在FSC147,CARPK和PUCPR+上的广泛实验证明了VLCounter的好处。
Dec, 2023
通过深入研究语言引导示例学习,论文提出了一种新颖的ExpressCount,用于改进零样本物体计数。通过语言导向的示例感知器和下游视觉零样本计数管道构成的ExpressCount,在寻找细粒度特征方面表现出色,充分利用了来自大型语言模型的丰富语义先验知识,并显著提升了任意类别的零样本学习能力,从而为发展和验证基于语言的计数模型开辟了新的途径。大量实验证明了ExpressCount的最先进性能,甚至展示了与部分特定类别计数模型相媲美的准确性。
Feb, 2024
不需要训练的前提下,本研究提出了一种直接的解决方案,通过利用预先存在的基础模型进行实例级分割,通过四项关键技术的结合,实现了性能的显著提升,与基于训练的方法相媲美。
Mar, 2024
本研究解决了在计算机视觉领域中,现有预训练视觉语言模型在序数回归任务中的局限性,特别是它们对数字感知的处理不足。我们提出了一种称为NumCLIP的方法,通过细分图像到数字匹配问题并引入新的基于跨模态排名的正则化损失,显著提升了模型的定量理解能力。实验结果显示,NumCLIP在历史图像定年和图像美学评估任务上分别实现了10%和3.83%的准确率提升。
Aug, 2024
本文解决了计算机视觉中类别无关计数的评估问题,指出现有基准在评估模型理解计数对象方面的不足。提出的Prompt-Aware Counting(PrACo)基准通过两项针对性测试和评价指标,显著提高了评估的准确性,发现一些最先进的方法在标准计数指标上表现出色,但在理解输入提示时存在明显缺陷。
Sep, 2024