透明物体跟踪与增强融合模块
现代跟踪器在透明物体上的性能大幅下降,原因是透明物体的外观受背景影响且通常包含视觉上相似的物体(干扰因素)。鉴于透明物体跟踪缺乏大型训练数据集,本文提出了首个透明物体跟踪训练数据集 Trans2k,包含超过 2k 序列和 104,343 张图像,并通过边界框和分割掩码进行注释。在该数据集上训练的标准跟踪器性能提高了最多 16%。本文的第二个贡献是一种新的干扰因素感知的透明物体跟踪器(DiTra),将定位准确性和目标识别作为分离的任务,并通过一种新颖的架构实现。DiTra 在透明物体跟踪领域取得了最新的最佳性能,并且对不透明物体也有很好的泛化能力。
Jan, 2024
本文提出了一种基于 transformer 架构的特征融合网络,以解决 3D 目标跟踪中的关键问题。该网络利用自注意机制捕捉点云中不同区域之间的相互关系,并使用交叉注意力将目标提示信息融入特征中,从而提高相似度计算的效率。在 KITTI 数据集上的实验结果表明,该方法取得了最新的最佳表现。
Oct, 2021
本论文提出了一种名为 MVTrans 的新型多视点方法,采用多种感知能力,包括深度估计、分割和姿态估计,可用于透明物体检测,并建立了一个逼真的数据集合成管道 Syn-TODD 用于网络训练。
Feb, 2023
提出 Trans4Trans 模型,利用双头转换器来分割常见的全玻璃幕墙、透明物体,进行实时的辅助导航,有效提升低视力人士的行动能力。模型基于对称变压器编码器和解码器,花费较少计算复杂度,可在可携带的 GPU 上轻松部署。在 Stanford2D3D 和 Trans10K-v2 数据集上表现优于最先进方法,并获得了 45.13%和 75.14%的 mIoU。通过各种预测试和用户研究来验证辅助系统的可用性和可靠性。
Jul, 2021
TransFusion 是一种稳健的解决方案,用于处理自动驾驶中 LiDAR 和摄像头数据融合时面对的图像质量下降和误差校准问题。该方法结合了使用浅层目标查询从 LiDAR 点云预测初始边界框和自适应融合对象查询与有用的图像特征,使用注意机制确定应该从图像中获取哪些信息的特点,在大规模数据集上表现良好。
Mar, 2022
本文提出了 TransTrack,该方法利用 Transformer 架构解决多目标跟踪问题,采用对象特征作为当前帧的查询并引入一组学习对象查询以检测新对象,通过实现单次检测和跟踪建立了新的联合检测和跟踪范例,在 MOT17 和 MOT20 基准测试中达到了 74.5%和 64.5%的 MOTA,是一种优秀的多目标跟踪方法。
Dec, 2020
本研究提出了一种新型的多模态混合跟踪器 (MMHT),利用基于帧事件的数据进行可靠的单目标跟踪,通过使用人工神经网络(ANN)和脉冲神经网络(SNN)构建混合骨干,并使用增强的基于 Transformer 的模块通过注意机制融合多模态特征,构建多尺度和多维度的视觉特征空间,从而实现了有益的特征建模。实验结果表明,MMHT 模型在解决视觉目标跟踪任务中面临的挑战方面具有竞争力。
May, 2024
本文提出了一种基于 Transformer 注意力机制的特征融合方法,并将其应用于跟踪任务中。实现了在六个有挑战性的数据集上取得了很好的跟踪结果。最终得出了一个名为 TransT 的跟踪器,运行在 GPU 上的大约 50fps。
Mar, 2021
探究深度特征在目标跟踪中的局限性及其与手工特征关系,提出融合深度与浅层特征的自适应方法以提高跟踪的鲁棒性和准确性,并在四个数据集上进行实验证明该方法相较于当前最优跟踪算法有 17% 的提升。
Apr, 2018
提出了一种鲁棒的目标建模框架(ROMTrack),同时对固有模板和混合模板特征进行建模,通过结合目标对象的固有特征和搜索区域的引导来抑制有害干扰物,并使用混合模板提取与目标相关的特征,从而实现更强大的目标建模框架。
Aug, 2023