CounTR: 基于 Transformer 的通用视觉计数
通过深入研究语言引导示例学习,论文提出了一种新颖的 ExpressCount,用于改进零样本物体计数。通过语言导向的示例感知器和下游视觉零样本计数管道构成的 ExpressCount,在寻找细粒度特征方面表现出色,充分利用了来自大型语言模型的丰富语义先验知识,并显著提升了任意类别的零样本学习能力,从而为发展和验证基于语言的计数模型开辟了新的途径。大量实验证明了 ExpressCount 的最先进性能,甚至展示了与部分特定类别计数模型相媲美的准确性。
Feb, 2024
本文提出了一种用于类别无关计数的视觉计数器,利用区域建议网络及密度估计对重复出现的对象进行计数,实现对新颖目标类别的自动化计数。实验表明,该方法在 FSC-147 数据集上表现优异。
May, 2022
本文提出了一种新的两阶段训练策略和一种新的基于不确定性感知的少样本对象检测器:Counting-DETR,用于解决少样本目标计数和检测问题,并在两个新数据集上验证了其性能优于强基线模型。
Jul, 2022
零样本目标计数 (ZSC) 是一种新的设置,只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法,该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言 - 视觉模型构建类原型,我们选择包含目标对象的补丁,同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。
Sep, 2023
本文提出一种使用预训练的 Vision Transformer(ViT)的解决方案,实现了 Class-Agnostic Counting(CAC),并将其称为 CACViT。实验结果表明,CACViT 在 FSC147 和 CARPK 数据集上均具有很强的鲁棒性和高效性,相较于其他现有的类别无关计数方法减少了 23.60% 的误差。
May, 2023
本文介绍了一种基于视觉原语计数的人工监督信号的表示学习新方法,使用无需手动注释的等变关系获取监督信号,并使用两个图像变换(缩放和平铺)组合成一个约束条件,用对比损失训练神经网络,以产生在迁移学习基准测试中与当前最新技术相媲美或超越其的表示。
Aug, 2017
提出了 CounTX,一种基于 transformer decoder 的单阶段模型,可对任何类别的目标物体进行计数并能够针对使用文本描述任务的方法在 FSC-147 基准测试上超越现有技术。
Jun, 2023
该论文提出了一种基于 Transformer 的弱监督人群计数方法 TransCrowd,通过自注意力机制实现了语义人群信息的高效提取,在五个基准数据集上获得了比弱监督 CNN 方法更好的性能和与一些流行的全监督计数方法相当的计数性能。
Apr, 2021
零样例物体计数的一阶段基线方法 VLCounter 是通过探索 CLIP 的语义补丁嵌入的内在关联,结合三种模块来实现;SPT 用于获得目标高亮表示,LAT 用于将语义补丁相似度转化为适合计数任务的形式,SaSC 用于保持对未见类的泛化能力,并通过在 FSC147,CARPK 和 PUCPR + 上的广泛实验证明了 VLCounter 的好处。
Dec, 2023