SAM-PM: 基于时空注意力的视频隐蔽物体检测增强
本文研究了最近发布的 Meta AI Research 的分割模型 SAM 在伪装目标检测任务上的性能,对比了其他 22 种伪装目标检测方法的表现,并提出了构建更强大的 SAM 解决伪装目标检测任务的进一步研究机会。
Apr, 2023
提出了一种新的视频伪装目标检测 (VCOD) 框架,可以利用短期动态和长期时间一致性来检测视频帧中的伪装目标,采用单一优化框架统一了运动估计和对象分割,并使用空间 - 时间变换器从而有效地处理视频的时间动态,提供了一个名为 MoCA-Mask 的大规模 VCOD 数据集,为该方向的研究建立了综合性的基准测试。
Mar, 2022
本研究使用少量的用户协助,利用阴影数据和稀疏提示对 Segment anything model 进行微调,再结合长短期注意机制扩展其能力,使其可以用于视频阴影检测,与现有技术相比,实验结果表明,该方法在 MAE 和 IoU 方面分别提高 17.2% 和 3.3%,验证了我们提出方法的有效性。
May, 2023
本文探讨了将 Segment Anything Model(SAM)应用于视频对象跟踪和分割任务的潜力,通过使用多种 prompt 和引入基于点的优化阶段,实现了在三个数据集上对比性能相当的视频对象 / 实例分割任务,该方法为基于 SAM 的后续应用赋予了跟踪能力。
Mar, 2024
通过结合基于 SfM 的 SAM 模型将视频中的目标进行分割和跟踪的方法,提出一种减少手动注释工作量的视频对象跟踪系统。系统性能经过计算时间、与手动标签的掩码 IOU 和跟踪损失数量等三个指标的评估,结果表明该系统在跟踪视频帧中的物体方面较人工表现有显著计算时间改善,但在性能上存在一定程度的退化。
Oct, 2023
本文提出了一种统一的、端到端可训练的时空卷积神经网络模型,用于视觉目标分割,包括时间一致分支和空间分割分支,并以优化的方式使用未标记的视频数据从中预训练时空一致性分支,以捕获视频序列的动态外观和运动线索引导对象分割。
Apr, 2019
提出了一种开放词汇的全景分割模型,通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块(LDP),克服了 SAM 的局限性,并引入了面向掩膜的选择集成算法(MASE)来自适应地提高生成掩膜的质量,从而在多个数据集上展示了很强的泛化性能,并且在开放词汇全景分割方法方面取得了显著的改进。
Mar, 2024
通过使用简单而有效的适配器将特定领域信息或视觉提示集成到分割网络中,我们的实验表明,SAM-Adapter 可以显着提高 SAM 在具有挑战性的任务中的性能,并且在我们测试的任务中甚至可以胜过专门的网络模型,并达到最先进的性能:伪装目标检测和阴影检测。
Apr, 2023
本文介绍了一种用于视频目标检测的空间 - 时间记忆网络,其核心是一种新颖的空间 - 时间记忆模块,用于模拟长期的时间外观和动态运动,并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果,并且文章的实验表明了不同设计选择的贡献。
Dec, 2017
本研究提出了一种使用深度循环网络实现同时分割和追踪视频中物体的方法,结合了时间传播和重新识别模块,以及基于注意力的循环蒙版传播方法,取得了在 DAVIS 2017 基准测试(test-dev 集合)上最高的分割和边缘测量平均值(68.2),优于同一分区上获胜解决方案的全球平均值(66.1)
Mar, 2018