Jun, 2024

POPCat: 复杂注释任务的粒子传播

TL;DR通过利用视频数据的多目标和时间特征,我们提出了一种名为 POPCat 的高效方法来创建用于分割或基于框的视频注释的半监督管道,使其在产生更大泛化能力的半监督注释的同时保持与人工注释相当的准确性。该方法通过使用粒子追踪器利用时间特征来扩展人工提供的目标点的域,然后利用此生成的数据训练 YOLO 模型,并快速推断目标视频。对 GMOT-40、AnimalTrack 和 Visdrone-2019 基准进行评估,这些多目标视频跟踪 / 检测集包含多个外观相似的目标、摄像机运动和其他在 “野外” 情况中常见的特征。我们特别选择这些困难的数据集来展示该管道的有效性并进行比较,结果显示在 GMOT-40、AnimalTrack 和 Visdrone 上相对于最佳结果的召回率 /mAP50/mAP 上分别提高了 24.5%/9.6%/4.8%、-/43.1%/27.8% 和 7.5%/9.4%/7.5%。