多焦点高斯邻域关注的视频众包定位及大规模基准数据集

Jul, 2021

多焦点高斯邻域关注的视频众包定位及大规模基准数据集

Video Crowd Localization with Multi-focus Gaussian Neighborhood Attention and a Large-Scale Benchmark

Haopeng Li, Lingbo Liu, Kunlin Yang, Shinan Liu, Junyu Gao...

TL;DR本研究提出了一种多重高斯邻域注意力机制 (即 GNA) 来进行视频人群定位，利用该方法能够准确地捕捉到运动物体的空间尺度变化，并针对这种目的开发了一种名为 GNANet 的神经网络模型。同时，为了方便未来的研究，还引入了一个大规模的人群图像数据集 (VSCrowd)，研究表明该方法能够显著提升视频人群定位和计数的性能。

Abstract

video crowd localization is a crucial yet challenging task, which aims to estimate exact locations of human heads in the given crowded videos. To model spatial-temporal dependencies of human mobility, we propose a multi-focus Gaussian neighborhood attention (GNA), which can effectively

video crowd localization human head detection spatial-temporal modeling multi-focus gaussian neighborhood attention vscrowd dataset

发现论文，激发创造

用于人群计数的多尺度注意力网络

提出了一种使用多分支尺度感知注意力网络、卷积神经网络、软注意力机制、尺度感知损失函数等方法，在 4 个不同的人群计数数据集上实现了最先进的效果，平均减少 25% 的误差。

Jan, 2019

关注头部位置的人群计数

本文提出了一种新颖的使用注意力模型的方法，通过利用头部位置作为人群计数的最重要线索，结合多尺度特征提取和相对偏差损失函数来实现复杂背景、尺度变化和非均匀分布等实际应用中的挑战，提高了稀疏人群密度估计的准确性。在 Shanghai-Tech、UCF_CC_50 和 World-Expo＇10 数据集上的实验表明了该方法的有效性。

Jun, 2018

利用人类注视数据监督视频字幕生成神经注意模型

本研究探讨是否可以利用人眼注视追踪信息定义注意力机制以提高视频字幕生成任务的性能，通过提出一种名为 GEAN 的视频字幕模型，并采用人眼注视追踪数据来提供生成句子的时空注意力，以及对语言相似性指标和人工智能通过 Amazon mechanical Turk 进行的评估，证明了由人眼追踪数据指导的空间注意力确实改善了多个字幕方法的性能，并展示了该方法在 VAS 数据集和标准数据集（如 LSMDC 和 Hollywood2）中实现了领先的性能，成为最先进的视频字幕生成方法。

Jul, 2017

多尺度群体计数与定位通过多任务点监督

本文提出了一种多任务方法来统一框架中进行人群计数和人员定位，通过学习编码人群图像的多尺度表示并将它们融合，我们的模型比相对较流行的基于密度的方法使用点监督来精确地识别人群位置，并在两个流行的分别是 ShanghaiTech A 和 B 的人群计数数据集上测试了我们的模型，展示了我们的方法在人群计数和定位任务上的强效果，分别在 ShanghaiTech A 和 B 上具有 110.7 和 15.0 的 MSE 量和 0.71 和 0.75 的 AP 量，我们的详细消融实验显示了多尺度方法的影响以及我们网络中嵌入的融合模块的有效性。

Feb, 2022

基于尺度感知注意力网络的人群计数

本文提出了一种新的 scale-aware attention 网络模型，利用注意力机制结合全局和局部尺度来解决人群计数中的尺度变化问题，并在多个基准数据集上优于其他最先进的人群计数方法。

Mar, 2019

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019

深度循环空间感知网络在人群计数中的应用

本文提出了一种利用神经网络及空间变换模型解决人流量不规则变化问题的方法，在 4 个数据集上实验得到了 12%-22.8% 的改进。

Jul, 2018

拥挤场景中的实时异常检测和定位

该论文提出了一种在密集场景中进行实时异常检测和定位的方法，在该方法中，视频被定义为非重叠立方块的集合，并使用两个本地和全局描述符进行描述。我们利用简单和经济实惠的高斯分类器来区分正常活动和异常活动，并根据相邻块之间的结构相似性和无监督学习的特征来确定本地和全局特征。大量实验结果表明，该算法优于 UCSD ped2 和 UMN 基准的最新方法，而且具有更高的时间效率。我们的实验结果证明了我们的系统可以在视频中发生异常时可靠地检测和定位异常。

Nov, 2015

基于局部约束的空间变形网络用于视频人群计数

本研究提出一种基于密度图和局部限制空间变换网络（LSTN）的视频人群计数方法，旨在解决人员在场景中移动等因素引起的密度图变化问题，并通过收集包含 15K 帧的大规模视频人群计数数据集来验证该方法的有效性。

Jul, 2019

带有注意力机制的双通道多尺度融合网络用于人群计数

本文提出了一种名为 SFANet 的新型双路径多尺度融合网络架构，其中包括一种注意力机制，可以在高度拥挤的人群场景中执行精确的计数估计以及提供高分辨率密度地图。该网络包括 VGG 骨干卷积神经网络和双路径多尺度融合网络，可生成高质量的高分辨率密度地图，并在多个数据集上表现出最佳性能。

Feb, 2019