TokenMotion: 基于可学习的令牌选择的运动引导视觉变换器用于视频伪装物体检测

Nov, 2023

TokenMotion: 基于可学习的令牌选择的运动引导视觉变换器用于视频伪装物体检测

TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged Object Detection Via Learnable Token Selection

Zifan Yu, Erfan Bank Tavakoli, Meida Chen, Suya You, Raghuveer Rao...

TL;DR介绍了一种基于 Transformer 模型的 TokenMotion（TMNet），通过可学习的令牌选择提取运动引导特征，提升视频伪装对象检测的性能，在具有挑战性的 MoCA-Mask 数据集上，TMNet 在 VCOD 中实现了最先进的性能，加权 F-measure 提高了 12.8％，S-measure 提高了 8.4％，平均 IoU 提升了 10.7％，结果表明利用运动引导特征和可学习的令牌选择能够解决复杂的 VCOD 任务。

Abstract

The area of video camouflaged object detection (vcod) presents unique challenges in the field of computer vision due to texture similarities between target objects and their surroundings, as well as irregular mot

video camouflaged object detection vcod tokenmotion tmnet motion-guided features

发现论文，激发创造

视频伪装目标检测隐式运动处理

提出了一种新的视频伪装目标检测 (VCOD) 框架，可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标，采用单一优化框架统一了运动估计和对象分割，并使用空间 - 时间变换器从而有效地处理视频的时间动态，提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集，为该方向的研究建立了综合性的基准测试。

Mar, 2022

运动引导的令牌压缩用于高效的掩码视频建模

通过提高 FPS 速率并使用 MGTC 方法，在视频理解方面取得了显著的性能提升，并在降低计算负担的同时保持了高的性能表现。

Jan, 2024

视频伪装目标检测中的明确动作处理和交互提示

提出了一种新颖的显式动作处理和交互提示框架（EMIP），用于视频伪装目标检测（VCOD）。该框架利用预训练的光流基础模型，通过双流架构实现伪装分割和光流估计，并通过交互提示方式增强两个流的输出。实验结果表明，EMIP 在流行的 VCOD 基准上取得了新的最先进记录。

Mar, 2024

非受限环境下的多人跟踪和再识别的 Transformer 网络

提出了一个综合的多目标跟踪方法 STMMOT，该方法结合了目标检测和身份链接，能够在长时间内维持目标身份链接，并利用具有注意力机制的鲁棒时空记忆模块和动态查询嵌入来预测目标状态，消除了后处理的需求。

Dec, 2023

运动背叛：通过运动分割发现伪装的物体

设计了一种计算机体系结构，利用运动信息进行物体分割以发现视频中的伪装对象，并在大规模的 MoCA 视频数据集上证明了其有效性。

Nov, 2020

MoST: 多模态场景编码用于动作预测

通过将视觉世界划分为场景元素，并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素，我们提出了一种能够高效编码多帧多模态观察的方法，并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于现有技术。

Apr, 2024

去噪多目标追踪：面向严重遮挡的方向

本研究分析了传统的卷积神经网络方法和基于 Transformer 的方法在处理遮挡时的局限性，并提出了一种用于多目标跟踪的端到端可训练的去噪 Transformer 模型（DNMOT），通过在训练过程中显式地模拟遮挡情况来解决遮挡带来的挑战，实现了噪声去除的学习过程，从而使得模型在拥挤场景下表现出强大的鲁棒性和良好的性能。此外，我们提出了一种级联遮罩策略，以更好地协调解码器中不同类型查询之间的交互，以防止在拥挤场景下相邻轨迹之间的相互抑制，而且该方法在推理中不需要额外的匹配策略和运动状态估计模块。我们在 MOT17、MOT20 和 DanceTrack 数据集上进行了大量实验证明，我们的方法在性能上明显优于之前的最先进方法。

Sep, 2023

MotionTrack: 多目标跟踪的运动预测器学习

本文提出了一种名为 MotionTrack 的新型可学习动作预测器，其综合结合了两个层级的运动特征以增强时态动态的建模和促进个体物体准确的未来运动预测。

Jun, 2023

BATMAN: 双边注意力变换器用于运动 - 外观邻域空间的视频对象分割

在这篇文章中，作者们提出了一个基于 Bilateral Attention Transformer 的新型半监督 Video Object Segmentation 算法，该算法通过光流校准模块来捕捉视频中的物体运动，从而降低物体边界噪音，并利用邻域双边空间中的对应关系计算查询和参考帧之间的对应关系，从而提高物体分割效果。该算法在所有四个流行的 VOS 基准测试（Youtube-VOS 2019，Youtube-VOS 2018，DAVIS 2017Val/Testdev 和 DAVIS 2016）上都比现有的半监督 VOS 算法表现更优。

Aug, 2022

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位

基于视觉和语言描述，本研究提出了一种新的边界回归范式来定位视频中的行为或事件，通过一个可学习的回归标记来预测时间边界，而非跨模态特征，取得了良好的效果并得到了进一步验证。

Aug, 2023