- 温度领域下的船舶再识别和活动检测用于海事监控
我们提出了一种基于热视觉的海上监控方法,具备目标跟踪、船只重识别和可疑活动检测的能力,并使用我们创建的热数据集对其进行训练,该数据集将成为热海上监控的首个公开基准数据集。我们的系统能够以 81.8% 的 Top1 得分重新识别船只,以 72 - 强化变压器追踪器对抗攻击的可复现性研究
新的 Transformer 跟踪器在最新的基准测试上表现出高效能,该研究关注于理解 Transformer 跟踪器在对抗性攻击中的行为以及各种攻击方法在参数变化时对跟踪数据集的表现。我们的实证研究发现,攻击干扰的程度和攻击干扰的稀疏性可能 - 通过自我监督辅助深度估计学习增强目标跟踪
RGB-D 跟踪大大提高了物体追踪的准确性,但其对真实深度输入的依赖性和多模态融合的复杂性限制了其在各种场景中的适用性。我们提出了一种名为 MDETrack 的新方法,通过受监督或自监督辅助单眼深度估计学习,训练一个具有理解场景深度能力的跟 - 跟踪一切猛禽 (TAR)
开发了一种名为 Track Anything Raptor (TAR) 的先进空中飞行器系统,利用多模态请求 (如文本、图像和点击) 检测、分割和跟踪用户感兴趣的对象,并使用 DINO、CLIP 和 SAM 等先进模型估计查询对象的相对姿态 - 数字文档的空气签名和隐私保护签名验证
该论文提出了一种新颖的数字签名方法,使用基于相机的交互系统、单指跟踪将手势识别和多命令执行结合在一起。该方法称为 “空中签名”,旨在开发一种实时检测和跟踪手势和物体的最先进方法。还提出了用于平滑处理和线条绘制的现有手势识别和物体跟踪系统,并 - STT: 自动驾驶的具有状态的变形器跟踪
通过使用 Transformer 模型,本文提出一种名为 STT 的有状态跟踪模型,它能够可靠地跟踪三维空间中的对象,并精确预测它们的状态,以确保自动驾驶的安全。通过消耗检测历史记录中的丰富外观、几何和运动信号,STT 在数据关联和状态估计 - 来自以自我为中心的视频的空间认知:视力范围之外,心灵之内
通过使用自我中心相机捕获的观测,本研究旨在模仿人类空间认知能力,从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法,将部分二维观测提升到三维世界坐标,通过视觉外观、三维 - Elysium:透过 MLLM 探索视频中的物体层次感知
通过在大型视频数据集上进行大规模预训练,我们提出了一种全新的多模态大型语言模型(MLLM),名为 Elysium,该模型可以在视频中进行物体级任务,而无需任何其他插件或专家模型。
- SSF-Net:具有谱角感知的空间光谱融合网络用于高光谱目标跟踪
提出了一种具有光谱角度感知的空间 - 光谱融合神经网络(SST-Net),用于高光谱目标跟踪。
- ACTrack: 为视觉目标跟踪添加时空条件
我们提出了 ACTrack,一个新的跟踪框架,通过冻结参数来保留预训练的 Transformer 骨干的质量和能力,并使用可训练的轻量级加法网络来建模跟踪中的时空关系,实验结果证明 ACTrack 能够在训练效率和跟踪性能之间取得平衡。
- COLINGOLViT: 基于注意力嵌入的视频对话多模态状态追踪
我们提出了 Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型,它在基于多模态注意力的对话状态跟踪器上运行。OLViT 通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 ( - 超越卡尔曼滤波:基于深度学习的滤波器改进的物体追踪
我们提出了两种创新的数据驱动滤波方法,通过结合可训练的运动模型进行对象位置预测,并将观察结果与对象检测器的预测相结合,以提高边界框预测准确性。我们的方法在多个数据集上进行了广泛评估,证明在对象跟踪方面,尤其是非线性运动模式的情况下,我们的滤 - CRSOT: 使用非对准帧和事件相机进行跨分辨率目标跟踪
使用不对齐的神经形态和可见光相机进行目标跟踪,提出了一种新的跟踪框架,能够通过提取 RGB 和 Event 数据的特征,并利用不确定性感知模块和融合模块实现高性能的跟踪。
- 基于人类意图推理的跟踪
该研究论文介绍了一种名为 TrackGPT 的追踪器,它采用来自大型视觉语言模型(LVLM)的知识和推理能力进行复杂的基于推理的目标追踪,通过提供隐式的追踪指令实现自动追踪,其在指示追踪基准测试中表现出竞争性的性能。
- 低光环境下目标跟踪的综合研究
在低光环境中进行准确的物体追踪对于监控和动物行为学应用至关重要。本文研究了这些扭曲对自动物体追踪器的影响,并提出了一种解决方案,通过将去噪和低光增强方法整合到基于变压器的物体追踪系统中,提高追踪性能。实验结果表明,用低光合成数据集训练的提出 - AAAI多模态追踪的双向适配器
通过引入多模态图像以弥补单一成像传感器的限制,我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型,通过交互式互补多模态信息,实现了优良的跟踪性能。
- PhyOT:物理信息导向的监控摄像头目标跟踪
通过深度学习和算法的融合,我们提出了一种用于物体追踪的混合模型 (PhyOT),该模型将深度神经网络视为卡尔曼滤波器中的 “传感器”,利用牛顿运动定律的先验知识来融合传感器观测并进行改进的估计。实验结果表明,我们的 PhyOT 在极端条件下 - 2024 年海洋计算机视觉第二届研讨会
本研究报告提供了对无人机和无人水面船只领域中的海上计算机视觉问题的深入研究,包括目标跟踪和障碍物分割等主要主题。
- 注意分心事件追踪
提出了一种引入了变压器模块的具有抗干扰能力的事件驱动跟踪器,在两个大型事件跟踪数据集上验证了其在准确性和效率方面优于现有的最先进跟踪器。
- 使用大型预训练模型进行零样本开放词汇跟踪
通过重复用大规模预训练模型进行检测和分割,本研究提出了一种在 2D 视频中追踪和分割任何类别对象的模型,并在多个评估数据集上取得了强大的性能表现。