捕捉图像特征中的空间相互依赖性：计数网格，一种用于特征包的典型表示

WWWOct, 2014

捕捉图像特征中的空间相互依赖性：计数网格，一种用于特征包的典型表示

Capturing spatial interdependence in image features: the counting grid, an epitomic representation for bags of features

Alessandro Perina, Nebojsa Jojic

TL;DR本文介绍了一种基于计数格模型的图像特征计数方法，该模型能够更准确地捕捉图像中特征计数的空间变化，并在场景分类任务中得到实验验证。

Abstract

In recent scene recognition research images or large image regions are often represented as disorganized "bags" of features which can then be analyzed using models originally developed to capture co-variation of word counts in text. However, →

image feature counts counting grid model scene recognition research generative model learning procedure

发现论文，激发创造

Count-ception: 全卷积冗余计数

本文提出一种使用深度神经网络的方法，对数字图像中的对象进行自动计数和定位，相对于现有方法，其平均误差率有 20% 的相对改进。

Mar, 2017

学习计数的表示学习

本文介绍了一种基于视觉原语计数的人工监督信号的表示学习新方法，使用无需手动注释的等变关系获取监督信号，并使用两个图像变换（缩放和平铺）组合成一个约束条件，用对比损失训练神经网络，以产生在迁移学习基准测试中与当前最新技术相媲美或超越其的表示。

Aug, 2017

使用深度目标特征学习计数

本论文利用 MNIST 数据集通过训练 counting convolutional neural network 来探究卷积神经网络中数字特征的表示学习，实现对于行人计数场景的初步探索。

May, 2015

利用网格细胞进行空间特征分布的多尺度表示学习

提出了一个名为 Space2Vec 的表示学习模型，用于将地点的绝对位置和空间关系进行编码，并在地理数据和图像分类两个任务上得到了比径向基函数和多层前馈神经网络等传统机器学习方法更好的效果，其特点是具有多尺度表示能力。

Feb, 2020

为视觉问答辩护的网格特征

本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务（如视觉问答（VQA））成功的关键因素，结果发现与 grid features 方法相比，前者的优势并非是最重要的。同时，grid features 方法设计和训练更加简单，使用更加灵活，并且能够进行端到端训练，不需要 region 标注，实现了直接从像素到答案的学习。

Jan, 2020

重新思考卷积网络对物体计数的空间不变性

本文提出使用高斯卷积核来代替原来的卷积滤波器，以估计密度地图中的空间位置，以达到激励密度地图生成过程并克服注释噪声的目的。我们的研究为后续研究指明了新的方向，应该研究如何适当放松过分严格的基于像素级空间不变性的对象计数。我们在 MCNN，CSRNet，SANet 和 ResNet-50 等 4 个主流对象计数网络上进行了评估，对 3 个应用程序（即人群，车辆和植物计数）的 7 个流行基准进行了广泛的实验，并且实验结果表明我们的方法明显优于其他最先进的方法，实现了有关对象空间位置的有希望的学习。

Jun, 2022

精确物体数量的文本到图像生成

通过分离并计算对象的实例以及修复缺失对象的形状和位置，本文提出了一种名为 CountGen 的模型，该模型在生成图像时能够准确控制对象的数量。

Jun, 2024

超越计数：应用于人群分析任务的密度地图比较 —— 计数、检测和跟踪

研究密度图估算在拥挤场景中对人群分析（计数、检测和跟踪）的性能及其质量评估指标，探讨使用经典卷积神经网络和滑动窗口回归器解决下采样步长导致分辨率下降的问题，发现分辨率低的密度图在计数任务中得分较高，而分辨率高的密度图则可以提高检测和跟踪等位置精度任务的性能，并提出了多项性能指标。

May, 2017

CounTR: 基于 Transformer 的通用视觉计数

本研究提出了 Counting Transformer (CounTR) 用于实现对任意语义类别的目标进行计数，并采用两阶段的训练策略进行无监督预训练和有监督微调，通过综合评估获得了当前最先进的零样本和少样本计数结果，并使用大规模计数基准进行了彻底的消融研究。

Aug, 2022

通过训练循环神经网络进行空间定位，出现网格状表示的现象

通过训练循环神经网络在 2D 区域中进行导航任务的方式，我们发现神经网络中出现了类似于网格细胞、边界细胞和其他空间相关细胞的响应模式，这些表现形式与实验观察到的现象相吻合，表明在神经回路中，类似于网格细胞和边界细胞等细胞对于有效表示空间是自然的解决方案。

Mar, 2018