本研究提出了 Counting Transformer (CounTR) 用于实现对任意语义类别的目标进行计数,并采用两阶段的训练策略进行无监督预训练和有监督微调,通过综合评估获得了当前最先进的零样本和少样本计数结果,并使用大规模计数基准进行了彻底的消融研究。
Aug, 2022
本研究提出了一种新的技术 CLIP-Count,利用预处理好的图像与文本对齐知识,在零样本的情况下,估计开放词汇对象的密度图,用于类无关物体计数, 并在 FSC-147、CARPK 和 ShanghaiTech 人群计数数据集上进行了广泛的实验,结果表明我们的方法实现了零样本物体计数的最高精度和泛化性能。
May, 2023
利用文本到图像的潜在扩散模型 (LDMs),本研究介绍了一种无监督的排序方法,通过借助生成的计数数据,对任意类型的对象进行可靠计数,该方法优于其他无监督和少样本方法,不受特定对象类别计数数据的限制。
Mar, 2024
TFCounter 是一种基于无需训练的类别不可知目标计数器,通过在大规模基础模型中的基本元素的级联构成一个即时上下文感知的计数框架,它采用双提示系统来识别多种形状、外观和大小不同的物体,并引入了一种创新的上下文感知相似度模块以提高在杂乱场景中的准确性,并通过实验证明了其在跨领域普适性方面的优越性。
零样本目标计数 (ZSC) 是一种新的设置,只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法,该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言 - 视觉模型构建类原型,我们选择包含目标对象的补丁,同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。
Sep, 2023
本文提出了一种新的两阶段训练策略和一种新的基于不确定性感知的少样本对象检测器:Counting-DETR,用于解决少样本目标计数和检测问题,并在两个新数据集上验证了其性能优于强基线模型。
Jul, 2022
我们提出了一个新颖的互动式无类别对象计数框架,其中人类用户可以交互地提供反馈以提高计数器的准确性。我们的框架包括两个主要组成部分:一个用户友好的可视化工具来收集反馈,以及一个高效的机制来整合它。
通过分离并计算对象的实例以及修复缺失对象的形状和位置,本文提出了一种名为 CountGen 的模型,该模型在生成图像时能够准确控制对象的数量。
Jun, 2024
本文提出了零样本目标计数(ZSC)这样一种新的设置,该计数系统不需要在循环中进行人工注释,并且可以自动运行。该方法首先构造一个类原型来选择可能包含感兴趣对象即类相关块的补丁,并引入一种可以定量衡量任意补丁作为计数示例的适宜程度的模型,通过将该模型应用于所有候选补丁,可以选择最合适的补丁作为计数示例,实验结果验证了方法的有效性。
Mar, 2023
本文提出了一项名为 Locount 的新任务,即同时进行对象定位和计数,针对此任务,我们收集了一个大规模的对象定位和计数数据集,提供了一个新的评估协议,同时提供了一个被称为级联定位和计数网络的强基线,并在数据集上进行大量实验以证明其重要性和性能。
Mar, 2020