Nov, 2023

TokenMotion: 基于可学习的令牌选择的运动引导视觉变换器用于视频伪装物体检测

TL;DR介绍了一种基于 Transformer 模型的 TokenMotion(TMNet),通过可学习的令牌选择提取运动引导特征,提升视频伪装对象检测的性能,在具有挑战性的 MoCA-Mask 数据集上,TMNet 在 VCOD 中实现了最先进的性能,加权 F-measure 提高了 12.8%,S-measure 提高了 8.4%,平均 IoU 提升了 10.7%,结果表明利用运动引导特征和可学习的令牌选择能够解决复杂的 VCOD 任务。