POPCat: 复杂注释任务的粒子传播

Jun, 2024

POPCat: Propagation of particles for complex annotation tasks

Adam Srebrnjak Yang, Dheeraj Khanna, John S. Zelek

TL;DR通过利用视频数据的多目标和时间特征，我们提出了一种名为 POPCat 的高效方法来创建用于分割或基于框的视频注释的半监督管道，使其在产生更大泛化能力的半监督注释的同时保持与人工注释相当的准确性。该方法通过使用粒子追踪器利用时间特征来扩展人工提供的目标点的域，然后利用此生成的数据训练 YOLO 模型，并快速推断目标视频。对 GMOT-40、AnimalTrack 和 Visdrone-2019 基准进行评估，这些多目标视频跟踪 / 检测集包含多个外观相似的目标、摄像机运动和其他在 “野外” 情况中常见的特征。我们特别选择这些困难的数据集来展示该管道的有效性并进行比较，结果显示在 GMOT-40、AnimalTrack 和 Visdrone 上相对于最佳结果的召回率 /mAP50/mAP 上分别提高了 24.5%/9.6%/4.8%、-/43.1%/27.8% 和 7.5%/9.4%/7.5%。

Abstract

Novel dataset creation for all multi-object tracking, crowd-counting, and industrial-based videos is arduous and time-consuming when faced with a unique class that densely populates a video sequence. We propose a

multi-object tracking crowd-counting video annotation semi-supervised pipeline temporal features

发现论文，激发创造

MOTS: 多目标跟踪和分割

本论文将多目标跟踪扩展到多目标跟踪和分割（MOTS）。为此，我们使用半自动注释程序为两个现有的跟踪数据集创建密集的像素级注释。通过我们的新注释，我们提出了一个新的基线方法，该方法使用单个卷积网络共同处理检测、跟踪和分割。我们演示了我们数据集的价值，在 MOTS 注释上训练可以提高性能，我们相信我们的数据集、指标和基线方法将成为开发超越 2D 边界框的多目标跟踪方法的宝贵资源。

Feb, 2019

MMPTRACK: 大规模密集标注多摄像机多人跟踪基准测试

本研究提供了一个大规模数据集，利用自动注释系统从不同环境下的高度重叠 RGB 和深度相机生成三维跟踪结果，并通过手动检查和纠正三维跟踪结果来确保标签质量，以提高多相机，多物体跟踪系统的可靠性和性能。

Nov, 2021

PathTrack: 利用路径监督实现快速的轨迹注释

本文介绍了一种有效的框架以及注释轨迹的方法，用于生成具有前所未有的规模的 MOT 数据集，并通过验证表明我们的方法比现有技术更加准确和高效。此外，我们还 crowdsourcing 了 PathTrack 数据集，这个大规模的数据集将对物体追踪及目标识别领域产生重要影响，证明了这个数据集的价值，并且用已有的数据训练之后另行测评的结果证明了我们的方法的有效性。

Mar, 2017

从自动注释中学习多目标跟踪与分割

本文介绍了一种新型的自动生成训练数据代码库，以及改进了最先进的多目标跟踪和分割方法。文章提出了跟踪挖掘算法和 MOTSNet 的深度学习跟踪方法，并在 KITTI MOTS 数据集上取得了显著的性能提升。

Dec, 2019

通过视频传播和标签弛豫来改进语义分割

通过视频预测方法合成新的训练样本并引入边界标签松弛技术，使模型对标注噪声和传播伪影更加鲁棒，实现在 Cityscapes 数据集上 83.5%、CamVid 上 82.9% 的 mIoUs 并在 KITTI 语义分割测试集上取得 72.8% 的 mIoU，超过 ROB 挑战 2018 年的获奖模型。

Dec, 2018

为多目标跟踪学习提议分类器

本论文提出了一个新颖的基于提议的可学习框架来解决多目标跟踪问题，该框架类似于 Faster RCNN，通过图聚类方法产生跟踪提议，并通过可训练的图卷积网络 GCN 来打分，实验结果表明这种方法在两个公共基准测试上比最先进的方法都有明显的性能提升。

Mar, 2021

跟踪与传递：通过观看视频模拟强人类监督以进行弱监督目标检测

该论文介绍了一种利用弱标记视频中的跟踪对象框传输到弱标记图像中生成伪 Ground Truth 框的框架，用以训练对象检测器，该方法包括从弱标记图像集合中挖掘分辨率区域以形成伪 GT 框，然后设计霍夫变换算法对每个图像投票以选择最佳盒子，目前已在 PASCAL 2007 和 2010 数据集上实现了最先进的弱监督检测结果。

Apr, 2016

通过物体类标签传播在视频中检测时间上一致的物体

本文提出了一种高效的视频物体推荐生成方法及聚类方法，应用于对象检测，使得仅需对每帧中少量候选提议进行分类实现在视频中检测对象的效率提高，证明了该方法在 Youtube-Objects 数据集上达到了最先进的检测性能。

Jan, 2016

使用跟踪对象提案进行视频对象分割

通过结合基于类别的目标检测、类别独立的目标外观分割和时间上的目标追踪等方法，通过训练全卷积网络对视频中的特定对象外观进行独立的分割，再引入对检测框时间上的连续性约束，从而实现半监督视频目标分割。

Jul, 2017

减少视频物体分割数据集注释工作量

本研究通过使用深度卷积神经网络，基于较为便宜的边界框注释自动生成像素级别的伪标签；进而证明添加单个手工标注的掩模图像帧可以对训练视频目标分割（VOS）方法产生足够的影响，从而可以利用这些伪标签进行训练。我们将这种方法应用在 TAO 观察数据集，得到了一个挑战性的新的 TAO-VOS 基准数据集，为当前算法的不足揭示出明显的改进空间。

Nov, 2020