CrowdHuman：人群中检测人物的基准

Apr, 2018

CrowdHuman: A Benchmark for Detecting Human in a Crowd

Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu...

TL;DR本文介绍了一个新的数据集 CrowdHuman，用于更好地评估人群场景中的探测器，该数据集包含各种各样的遮挡问题，通过对比先前的数据集，展示了在 Cross-dataset generalization 方面的表现。

Abstract

human detection has witnessed impressive progress in recent years. However, the occlusion issue of detecting human in highly crowded environments is far from solved. To make matters worse, →

human detection occlusion crowd scenarios dataset detection frameworks

发现论文，激发创造

人体姿态估计在现实世界拥挤场景中的应用

本论文针对人群姿态估计的问题，提出了通过数据增强方法、显式识别遮挡的身体部位和使用合成数据集来优化姿态估计。论文的实验结果表明这些方法提高了模型的准确性，使其在人群场景下获得了与当前最先进方法相媲美的结果。

Jul, 2019

WiderPerson：野外密集行人检测的多样数据集

介绍了一种新的数据集 WiderPerson，用于解决现有行人检测数据集缺少多样性和密度的问题，并提出了改进的 Faster R-CNN 和 RetinaNet 模型作为基准。在 Caltech-USA 和 CityPersons 等数据集上进行实验，证明该数据集可以有效提高模型的泛化能力，但需要加强对分类能力的改进以降低误报率和漏报率。

Sep, 2019

PedHunter：拥挤场景下抗遮挡行人检测器

该论文提出了一种名为 PedHunter 的有效和高效检测网络，引入了强大的遮挡处理能力来检测拥挤场景中的行人，采用掩码引导模块增强骨干网络的特征表示学习，改进正样本的质量提高分类准则，采用模拟遮挡数据来提高遮挡鲁棒性，在三个行人检测数据集上取得了最先进的结果，并发布了一个包含超过 162k 高质量手动标记实例的新行人数据集 SUR-PED，以便于进一步研究监视场景中的遮挡行人检测。

Sep, 2019

STCrowd: 拥挤场景中行人感知的多模态数据集

为了更好地评估拥挤场景下的行人感知算法，我们引入了一个大规模多模态数据集 STCrowd，并提出了一种新的方法 DHA 来增强拥挤场景中的行人感知。实验表明，我们的方法在各种数据集上均取得了最先进的性能。

Apr, 2022

Pose2Seg: 无检测人体实例分割

本篇论文提出了一种基于人体姿态的实例分割框架，相比于传统的基于 proposal 区域检测的方法，可以更准确地分割出人体，而且对于遮挡更具有鲁棒性。此外，作者还介绍了一个新的基于遮挡人体的公共数据集 OCHuman，包含了 8110 个被详细注释的遮挡人体实例，是相关研究中最复杂和具有挑战性的数据集。

Mar, 2018

学习从复杂野外场景中恢复鲁棒的三维人体网格

该研究论文提出了一种名为 3DCrowdNet 的深度学习模型，利用 2D 人体姿态估计和基于关节回归的方法，从拥挤的实景图像中恢复出单个人的三维人体模型。

Apr, 2021

JHU-CROWD++: 大规模人群计数数据集与评价方法

介绍了一种用于人群计数的 CNN 网络，并使用采集自多个不同场景的大规模数据集评估了这种方法。该网络使用残差学习以及基于不确定性的置信加权机制进行创新，从而获得了显著的计数准确度改善。

Apr, 2020

CrowdSim2：一个用于目标检测的开放式合成基准测试

该研究论文介绍了 CrowdSim2—— 一个新的人和车辆检测适用的合成图像集合，旨在用于基于人工智能的监督模型开发。研究发现他们使用的这个新数据集对于在受控环境中测量检测器性能是一个有价值的工具。

Apr, 2023

密集群众中的行人头部追踪

该研究提出一种基于头部检测和轨迹跟踪的算法来解决人群密度大的环境下的行人追踪问题，并提出了一种新的衡量算法效果的指标，并在 Crowd of Heads Dataset（CroHD）上进行了比较，表现优异。

Mar, 2021

Crowd3D：从单张图像中重建数百人

本文提出了 Crowd3D 框架，用于从单个广角场景图像中重建数百人的三维姿态、形状和位置，该方法基于新定义的 Human-scene Virtual Interaction Point（HVIP）的像素定位来解决复杂场景中的人群定位问题，并使用 adaptive human-centric cropping 方案进行处理，同时贡献了一组用于场景人群重建的基准数据集 LargeCrowd。

Jan, 2023