多目标跟踪的表示对齐对比正则化
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
Aug, 2023
本文提出了基于局部相关性模块的密集对应和可学习相关算子来增强模型的判别能力和对时间上下文的捕捉能力,从而在多目标跟踪方面取得了最先进的效果,并在 MOT17 数据集上实现了 76.5% 的 MOTA 和 73.6% 的 IDF1。
Apr, 2021
本研究提出了一种自监督学习方法,利用时间视频对齐作为前提任务,同时利用帧级别和视频级别信息,通过时间对齐损失和时间正则化项的结合来训练编码器网络,通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。
Mar, 2021
本研究提出一种名为空间 - 时间关系网络(STRN)的方法,利用统一框架同时编码多个线索来计算相似度,并深入研究了轨迹物体对的特征表示方法,成功地在 MOT15-17 基准测试中达到了最先进的精度。
Apr, 2019
我们提出了 ACTrack,一个新的跟踪框架,通过冻结参数来保留预训练的 Transformer 骨干的质量和能力,并使用可训练的轻量级加法网络来建模跟踪中的时空关系,实验结果证明 ACTrack 能够在训练效率和跟踪性能之间取得平衡。
Feb, 2024
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。
May, 2021
本文提出一种新的追踪架构,它以编码 - 解码变压器作为核心组件,将目标追踪转化为直接边界框预测问题,从而实现了端到端模型,无需使用任何先前设定的锚点或提案等后处理步骤。
Mar, 2021
当前计算机视觉系统在识别实物基础空间关系方面的性能较差,通过提出了精确的关系定义以允许对基准数据集进行一致的标注,并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构,并证明其胜过所有当前方法,这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。
Mar, 2024
本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法,通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用,在区域级别和像素级别同时建模视频帧之间的转换,从而在视觉对应任务中实现了优异的表现。
Sep, 2019