TrickVOS:视频目标分割的一袋技巧
本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战,包括短期记忆子网络和长期记忆子网络,通过图形学习框架提高局部区域间的可视一致性,在三个常用的数据集上取得了非常好的性能。
Mar, 2020
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
Jun, 2021
介绍了一种基于 Transformer 的视频对象分割方法,称为 Sparse Spatiotemporal Transformers (SST),使用稀疏注意力抽取每个对象的每个像素表示,同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果,并具有比现有技术更好的可扩展性和鲁棒性。
Jan, 2021
本文提出了一种名为 SpVOS 的 VOS 稀疏基线方法,通过开发一种新颖的三元稀疏卷积来减少整体 VOS 框架的计算成本,并结合稀疏训练策略对 VOS 分割性能和计算成本进行平衡,实验结果表明 SpVOS 在资源受限场景下具有应用潜力。
Oct, 2023
本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架,只需要一个标记的帧来训练,并适用于大多数最先进的 VOS 网络。通过双向训练,我们得到了一个令人满意的 VOS 网络,仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧,达到了与完全标记的数据集训练的结果相当的效果。
May, 2024
本文提出了三种新策略来抑制背景干扰器的出现,并使用一种新的半监督视频物体分割技术,使得所提出的模型在公共基准数据集上具有与现有技术方法可比拟的性能表现,同时还能够实现实时性能。
Jul, 2022
我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是,DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外,利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战,利用 DINO 预训练的 Transformer 中新兴的对象性,避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能,特别在复杂的现实世界多对象视频分割任务中表现出色,如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。
Nov, 2023
本文提出了一种名为 HST 的半监督视频对象分割框架,使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征,并使用内存读取操作产生层次特征以精确重构对象蒙版,该框架在处理复杂场景下具有有效性和鲁棒性,尤其是 HST-B 在多个流行基准测试中优于现有技术。
Jul, 2023
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024