CountGD: 多模态开放世界计数
本研究提出了Counting Transformer(CounTR)用于实现对任意语义类别的目标进行计数,并采用两阶段的训练策略进行无监督预训练和有监督微调,通过综合评估获得了当前最先进的零样本和少样本计数结果,并使用大规模计数基准进行了彻底的消融研究。
Aug, 2022
本研究提出了一种新的技术CLIP-Count,利用预处理好的图像与文本对齐知识,在零样本的情况下,估计开放词汇对象的密度图,用于类无关物体计数, 并在FSC-147、CARPK和ShanghaiTech人群计数数据集上进行了广泛的实验,结果表明我们的方法实现了零样本物体计数的最高精度和泛化性能。
May, 2023
提出了CounTX,一种基于transformer decoder的单阶段模型,可对任何类别的目标物体进行计数并能够针对使用文本描述任务的方法在FSC-147基准测试上超越现有技术。
Jun, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前OVOD方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
零样本目标计数 (ZSC) 是一种新的设置,只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法,该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言-视觉模型构建类原型,我们选择包含目标对象的补丁,同时使用排名模型评估每个补丁的计数误差并选择最合适的示例用于计数。在最近的类别无关计数数据集 FSC-147 上的实验结果验证了我们方法的有效性。
Sep, 2023
T-Rex是一个交互式的物体计数模型,通过视觉提示将物体计数形式化为开放集物体检测任务,可通过标记参考图像上的点或框来指定感兴趣的物体,然后检测具有相似模式的所有物体,并通过T-Rex的视觉反馈进行交互式地修正计数结果。该模型在全面的场景和挑战下展现出优异的零样例物体计数能力,且在视觉提示领域具有潜在的实际应用场景。
Nov, 2023
我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度,并通过对几种最先进的开放词汇物体检测器的评估,发现大多数现有方法难以准确捕捉和区分物体的细节,并总结了当前方法的局限性和有望克服这些缺点的研究方向。
Nov, 2023
不需要训练的前提下,本研究提出了一种直接的解决方案,通过利用预先存在的基础模型进行实例级分割,通过四项关键技术的结合,实现了性能的显著提升,与基于训练的方法相媲美。
Mar, 2024
一种新的实用方法,利用预训练模型的语义和几何洞察力,采用开放词汇框架同时计数多个对象类别,生成精确的对象掩模并利用点提示进行高效计数。
Mar, 2024
本文解决了计算机视觉中类别无关计数的评估问题,指出现有基准在评估模型理解计数对象方面的不足。提出的Prompt-Aware Counting(PrACo)基准通过两项针对性测试和评价指标,显著提高了评估的准确性,发现一些最先进的方法在标准计数指标上表现出色,但在理解输入提示时存在明显缺陷。
Sep, 2024