多目标预测:在多样化环境中预测未来物体位置
本文提出了一个新的模型来同时预测未来视频帧中的场景分析和光流估计。通过将场景分析和光流估计相结合,我们的模型在大规模数据集Cityscapes上显示出了显着更好的解析和运动预测结果。此外,我们还展示了我们的模型可以预测车辆的转向角度,从而进一步验证了我们的模型学习场景动态的潜在表示的能力。
Nov, 2017
本研究采用场景信息 (Scene-LSTM) 和人类运动轨迹 (Pedestrian movement LSTM) 结合的方式在静态人群中预测人类运动轨迹,其中引入了两层网格结构,探索出现在该网格单元中的常见人类轨迹,在训练预测模型中考虑了共性。相比线性模型和基于已有 LSTM 的方法,本研究所提出方法的目标位置误差有显著降低,与社交交互方法比较则降低了约 80% 的误差。
Aug, 2018
本文提出在自主系统中使用预测先行的方案,通过无标签3D传感器数据进行预测进而优化目标姿势预测。通过针对序列点云预测的有效方法SPFNet,评估和比较基于“检测-预测”和“预测-检测”两种算法方案的预测性能,最终得出了结论:预测先行且使用无标签数据可以提高姿势预测的性能。
Mar, 2020
本文提出了一个新任务——多镜头轨迹预测(MCTF),其中预测对象未来的轨迹在一个摄像头网络中。通过针对跨多个不重叠的摄像头视图进行预测,我们首次考虑到了具有挑战性的预测场景,在重识别和多目标多摄像头跟踪等任务中具有广泛适用性。为了促进这个新领域的研究,我们发布了Warwick-NTU多摄像头预测数据库(WNMF),一个由15个同步摄像机网络的多摄像头行人轨迹的独特数据集。为了准确地标记这个庞大的数据集(600小时的视频镜头),我们还开发了一种半自动化的注释方法。一个有效的MCTF模型应该预测一个人将在何时何地在摄像头网络中重新出现。在本文中,我们考虑了在另一个摄像头视图的视野中离开后,预测一个行人将重新出现的摄像头,并提出了几种基准方法。标记的数据库可在线获取:
May, 2020
MOTChallenge是一个针对单摄像头多目标跟踪设计的标准化比赛,包含三个版本,包括挑战性视频和精确的标签,同时提供了多目标跟踪器分类和广泛的错误分析。
Oct, 2020
本研究提出了一种基于原始传感器测量而非基于标准轨迹的端到端方法来进行对象检测和运动预测,实现对多个未来情况的推理能力,并扩展了检测度量来检验预测准确性。
Mar, 2022
本文介绍了一种名为PF-Track的多相机3D多目标跟踪框架,它重点强调时空连续性,过去和未来的推理,采用“注意跟踪”框架,并使用对象查询一致地表示跟踪实例,以明确使用历史线索,显式地引用前面帧和其他对象的查询,从而学习优化轨迹并增强物体特征。
Feb, 2023
本研究解决了传统多目标跟踪方法只针对少数预定义对象类型的固有限制,并提出了一种新的任务Open-vocabulary MOT,进一步开发出一种数据效率优异的开放词汇跟踪器OVTrack,通过知识蒸馏和数据幻觉策略有效提升图像分类和关联准确性,最终在大规模的TAO基准测试上取得了最新的最优效果。
Apr, 2023