CounTR: 基于 Transformer 的通用视觉计数

Aug, 2022

CounTR: 基于 Transformer 的通用视觉计数

CounTR: Transformer-based Generalised Visual Counting

Chang Liu, Yujie Zhong, Andrew Zisserman, Weidi Xie

TL;DR本研究提出了 Counting Transformer (CounTR) 用于实现对任意语义类别的目标进行计数，并采用两阶段的训练策略进行无监督预训练和有监督微调，通过综合评估获得了当前最先进的零样本和少样本计数结果，并使用大规模计数基准进行了彻底的消融研究。

Abstract

In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or →

generalised visual object counting transformer-based architecture zero-shot counting few-shot counting self-supervised learning

发现论文，激发创造

学习数数

该研究针对视觉物体计数问题，提出了一种基于少样本回归任务的方法，同时也介绍了一种新的适应策略和数据集以供模型训练和评估，并证明该方法在性能上优于现有的物体识别和计数方法。

Apr, 2021

通过语言引导的模板学习提升零样本计数

通过深入研究语言引导示例学习，论文提出了一种新颖的 ExpressCount，用于改进零样本物体计数。通过语言导向的示例感知器和下游视觉零样本计数管道构成的 ExpressCount，在寻找细粒度特征方面表现出色，充分利用了来自大型语言模型的丰富语义先验知识，并显著提升了任意类别的零样本学习能力，从而为发展和验证基于语言的计数模型开辟了新的途径。大量实验证明了 ExpressCount 的最先进性能，甚至展示了与部分特定类别计数模型相媲美的准确性。

Feb, 2024

免样本通用计数

本文提出了一种用于类别无关计数的视觉计数器，利用区域建议网络及密度估计对重复出现的对象进行计数，实现对新颖目标类别的自动化计数。实验表明，该方法在 FSC-147 数据集上表现优异。

May, 2022

少样本物体计数和检测

本文提出了一种新的两阶段训练策略和一种新的基于不确定性感知的少样本对象检测器：Counting-DETR，用于解决少样本目标计数和检测问题，并在两个新数据集上验证了其性能优于强基线模型。

Jul, 2022

语言 - 视觉模型下的零样本物体计数

零样本目标计数 (ZSC) 是一种新的设置，只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法，该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言 - 视觉模型构建类原型，我们选择包含目标对象的补丁，同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。

Sep, 2023

现成的视觉 Transformer 模型：针对少样本类别无关计数的出乎意料的基线

本文提出一种使用预训练的 Vision Transformer（ViT）的解决方案，实现了 Class-Agnostic Counting（CAC），并将其称为 CACViT。实验结果表明，CACViT 在 FSC147 和 CARPK 数据集上均具有很强的鲁棒性和高效性，相较于其他现有的类别无关计数方法减少了 23.60% 的误差。

May, 2023

学习计数的表示学习

本文介绍了一种基于视觉原语计数的人工监督信号的表示学习新方法，使用无需手动注释的等变关系获取监督信号，并使用两个图像变换（缩放和平铺）组合成一个约束条件，用对比损失训练神经网络，以产生在迁移学习基准测试中与当前最新技术相媲美或超越其的表示。

Aug, 2017

基于开放世界的文本特定目标计数

提出了 CounTX，一种基于 transformer decoder 的单阶段模型，可对任何类别的目标物体进行计数并能够针对使用文本描述任务的方法在 FSC-147 基准测试上超越现有技术。

Jun, 2023

TransCrowd：基于 Transformer 的弱监督人群计数

该论文提出了一种基于 Transformer 的弱监督人群计数方法 TransCrowd，通过自注意力机制实现了语义人群信息的高效提取，在五个基准数据集上获得了比弱监督 CNN 方法更好的性能和与一些流行的全监督计数方法相当的计数性能。

Apr, 2021

VLCounter：基于文本的视觉表示方法用于零样本物体计数

零样例物体计数的一阶段基线方法 VLCounter 是通过探索 CLIP 的语义补丁嵌入的内在关联，结合三种模块来实现；SPT 用于获得目标高亮表示，LAT 用于将语义补丁相似度转化为适合计数任务的形式，SaSC 用于保持对未见类的泛化能力，并通过在 FSC147，CARPK 和 PUCPR + 上的广泛实验证明了 VLCounter 的好处。

Dec, 2023