多目标跟踪的表示对齐对比正则化

Apr, 2024

多目标跟踪的表示对齐对比正则化

Representation Alignment Contrastive Regularization for Multi-Object Tracking

Shujie Chen, Zhonglin Liu, Jianfeng Dong, Di Zhou

TL;DR利用轻量级单层变压器编码器模型化时空关系，通过基于特征对齐的对比正则化损失将特征引入数据关联阶段，以提高现有跟踪网络的性能和解释性。

Abstract

Achieving high-performance in multi-object tracking algorithms heavily relies on modeling spatio-temporal relationships during the data association stage. Mainstream approaches encompass rule-based and

multi-object tracking spatio-temporal relationships deep learning interpretability transformer encoder

发现论文，激发创造

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

基于相关性学习的多目标跟踪

本文提出了基于局部相关性模块的密集对应和可学习相关算子来增强模型的判别能力和对时间上下文的捕捉能力，从而在多目标跟踪方面取得了最先进的效果，并在 MOT17 数据集上实现了 76.5% 的 MOTA 和 73.6% 的 IDF1。

Apr, 2021

基于时间对齐视频学习

本研究提出了一种自监督学习方法，利用时间视频对齐作为前提任务，同时利用帧级别和视频级别信息，通过时间对齐损失和时间正则化项的结合来训练编码器网络，通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。

Mar, 2021

多目标跟踪的空间 - 时间关系网络

本研究提出一种名为空间 - 时间关系网络（STRN）的方法，利用统一框架同时编码多个线索来计算相似度，并深入研究了轨迹物体对的特征表示方法，成功地在 MOT15-17 基准测试中达到了最先进的精度。

Apr, 2019

半监督轨道对比表示学习

本文提出了一种基于实例到轨迹匹配的外观嵌入学习方法，可以处理在线多目标跟踪问题，该方法可以进行半监督学习，并且在多个数据集上都表现出了更好的性能。

Jul, 2021

ACTrack: 为视觉目标跟踪添加时空条件

我们提出了 ACTrack，一个新的跟踪框架，通过冻结参数来保留预训练的 Transformer 骨干的质量和能力，并使用可训练的轻量级加法网络来建模跟踪中的时空关系，实验结果证明 ACTrack 能够在训练效率和跟踪性能之间取得平衡。

Feb, 2024

通过全局时间对齐和循环一致性进行表征学习

本文提出了一种针对同一过程（如人类动作）的时间序列（例如视频）的弱监督表征学习方法，通过对全局时间序列进行对齐，并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习，通过最优序列对齐进行嵌入网络的训练。通过大量实验表明，该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。

May, 2021

学习时空变换器进行视觉跟踪

本文提出一种新的追踪架构，它以编码 - 解码变压器作为核心组件，将目标追踪转化为直接边界框预测问题，从而实现了端到端模型，无需使用任何先前设定的锚点或提案等后处理步骤。

Mar, 2021

Transformer 能否捕获物体之间的空间关系？

当前计算机视觉系统在识别实物基础空间关系方面的性能较差，通过提出了精确的关系定义以允许对基准数据集进行一致的标注，并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构，并证明其胜过所有当前方法，这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。

Mar, 2024

联合任务自监督学习用于时间对应

本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法，通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用，在区域级别和像素级别同时建模视频帧之间的转换，从而在视觉对应任务中实现了优异的表现。

Sep, 2019