头部和全身探测器的融合用于多物体追踪

CVPRMay, 2017

头部和全身探测器的融合用于多物体追踪

Fusion of Head and Full-Body Detectors for Multi-Object Tracking

Roberto Henschel, Laura Leal-Taixé, Daniel Cremers, Bodo Rosenhahn

TL;DR本文介绍了如何将两种探测器融合到一个跟踪系统中，以解决单个探测器的局限性，并且提出了一种基于加权图标记问题的追踪算法，该算法通过 Frank-Wolfe 算法实现，经实验证明在行人跟踪的多种情景下，效果优于单个探测器跟踪和标准 QP-solvers，相比超过 90％的跟踪器，在 MOT16 基准测试中排名第二，在新的 MOT17 基准测试中排名第一。

Abstract

In order to track all persons in a scene, the tracking-by-detection paradigm has proven to be a very effective approach. Yet, relying solely on a single detector is also a major limitation, as useful image inform

tracking detection fusion graph labeling pedestrian

发现论文，激发创造

仅需两个探测器即可实现多模态三维多目标跟踪

本文提出了一种基于多模态融合的新型多目标跟踪框架，通过将目标检测和多目标跟踪集成到同一模型中，取消了传统 TBD 范例中复杂的数据关联过程，并且不需要额外的训练。其次，探讨了历史轨迹回归的置信度，分析了一条轨迹在当前帧中的可能状态，并设计了置信度融合模块来指导有序关联的轨迹和检测的非极大值抑制。最后，在 KITTI 和 Waymo 数据集上进行了大量实验，结果表明，所提出的方法可以通过使用两个模态检测器实现鲁棒跟踪，并且比许多最新的基于 TBD 范例的多模式跟踪方法更加精确。

Apr, 2023

聚集场景中通过头部聚焦处理高度遮挡问题的密集人群跟踪

本研究中，我们提出了一种联合检测深度学习模型，用于解决在高密度人群中识别和跟踪行人的问题，实验数据表明，该模型在小型和中型行人检测方面取得了最先进的结果。

Apr, 2023

通用化多相机三维行人检测

提出了一种多相机 3D 行人检测方法，该方法不需要使用目标场景的数据进行训练，通过基于人体姿势和来自现成单目检测器的人物包围框的新启发式方法在地面平面上估计行人位置，然后将这些位置投影到世界地面平面，并用新的团覆盖问题公式进行融合，同时还提出利用域通用的行人再识别模型在融合期间对行人外貌的选择性步骤，评估表明，在具有挑战性的 WILDTRACK 数据集上，所提出的方法获得了 0.569 的 MODA 和 0.78 的 F 分数，优于现有的最先进的通用检测技术。

Apr, 2021

基于因子图的点云 3D 多目标跟踪

本文提出了基于高斯混合模型和因子图框架的非线性最小二乘优化，用于处理三维空间中多个移动物体的跟踪问题，并展示了在 KITTI 跟踪数据集上实验的表现。

Aug, 2020

多传感器三维跟踪的端到端学习

提出了一种新的基于检测的跟踪法，可以利用摄像头和 LIDAR 数据来产生非常精确的三维轨迹。为此，我们将问题制定为线性规划问题，可以解决该问题，并学习卷积网络进行检测以及匹配，并在具有挑战性的 KITTI 数据集上评估模型并展示了极具竞争力的结果。

Jun, 2018

基于相机 - LiDAR 融合的自动驾驶多目标检测与跟踪

本文提出了一种有效的多模态 MOT 框架，包括使用 2D 和 3D 测量的联合目标检测和关联的端到端深度神经网络、用于计算 3D 空间中遮挡感知的外观和运动相似度的有效计算模块、以及联合优化检测置信度、相似度和开始 - 结束概率的综合数据关联模块，实验证明所提出方法在跟踪精度和处理速度方面优于 KITTI 跟踪基准。

Aug, 2021

用于极度拥挤场景下的数百人在线追踪的二次二进制规划

本文提出一种针对高密度人群场景的多目标追踪算法，采用二次规划方法和 Modified Frank Wolfe 算法，同时利用外观、运动、邻域运动、空间邻近性和分组约束等上下文信息进行探测和数据关联，有效提升目标检测效率，并在 11 个高密度人群序列上实验证明其较现有方法有显著的优势。

Mar, 2016

结合检测与跟踪进行视频中人体姿态估计

本篇论文提出了一种新的自上而下的方法来解决多人姿态估计和视频跟踪问题，该方法利用影片中已知的人位置向前向后传递并在这些区域搜索姿势，通过此技术，不局限于个人检测器的性能并且可以预测未被检测到的人的姿势。这种方法包括三个组件：（i）在小视频片段上同时执行身体关节检测和跟踪的 Clip Tracking Network；（ii）将 Clip Tracking Network 产生的固定长度轨迹片段合并为任意长度轨迹的 Video Tracking Pipeline；（iii）基于空间和时间平滑项来细化关节位置的空间 - 时间合并过程的 Spatial-Temporal Merging。由于我们的剪辑跟踪网络和合并过程的精度非常高，我们的方法可以在困难的场景（例如严重纠缠的人）中产生非常准确的关节预测，并在关节检测和跟踪方面实现了最先进的结果，对于 PoseTrack 2017 和 2018 数据集，并且超过了所有自上而下和自下而上的方法。

Mar, 2020

PoseTrack：联合多人姿态估计与跟踪

本文介绍了一个具有挑战性的问题，即在不受限制的视频中联合估计和跟踪未知数量的人的多人姿态。为此，我们提出一种新方法，将多人姿势估计和跟踪联合建模在一个公式中，使用时空图表示身体关节检测，在图上使用整数线性规划将其划分为子图，对应于每个人的可能身体姿势轨迹，该方法隐含处理遮挡和截断的问题。我们还提出了一个完全不受限制的评估协议和具有挑战性的 “Multi-Person PoseTrack” 数据集，评估了所提出的方法和几个基线方法在我们的新数据集上的表现。

Nov, 2016

使用分层深度轨迹复识别技术进行多人跟踪

本文提出了一个 hierarchical clustering 机制的跟踪框架，以便在利用 multi-stage deep network 进行 tracklet re-identification 的同时，合并 tracklets，从而提高多人追踪准确性。在 MOT16 和 MOT17 基准测试中，实验结果表明，我们的方法显著优于最先进技术。

Nov, 2018