Jul, 2021

多焦点高斯邻域关注的视频众包定位及大规模基准数据集

TL;DR本研究提出了一种多重高斯邻域注意力机制 (即 GNA) 来进行视频人群定位,利用该方法能够准确地捕捉到运动物体的空间尺度变化,并针对这种目的开发了一种名为 GNANet 的神经网络模型。同时,为了方便未来的研究,还引入了一个大规模的人群图像数据集 (VSCrowd),研究表明该方法能够显著提升视频人群定位和计数的性能。