本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法,该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。
Apr, 2023
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
提出了一种名为 JointFormer 的统一 VOS 框架,能够同时提取特征并传播目标信息,以进行全面的信息传播和辨别特征学习,通过在线更新机制,实现了对长期目标信息的整合,在多个基准测试上取得了较大幅度的优于现有算法的最新性能。
Aug, 2023
本研究提出了一种可扩展的简化 VOS(SimVOS)框架,通过利用单个转换器主干进行联合特征提取和匹配,从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明,SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果,即 DAVIS-2017(88.0%J&F),DAVIS-2016(92.9%J&F)和 YouTube-VOS 2019(84.2%J&F),而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。
该研究提出了一种新的、自动化的视频物体分割方法,通过集成一种可区分的少量样本学习模块,提高了分割精度,实现了当前 YouTube-VOS 2018 数据集的最新最佳分数,并使相对改进率达到了 2.6%以上。
Mar, 2020
本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架,只需要一个标记的帧来训练,并适用于大多数最先进的 VOS 网络。通过双向训练,我们得到了一个令人满意的 VOS 网络,仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧,达到了与完全标记的数据集训练的结果相当的效果。
本文提出了三种新策略来抑制背景干扰器的出现,并使用一种新的半监督视频物体分割技术,使得所提出的模型在公共基准数据集上具有与现有技术方法可比拟的性能表现,同时还能够实现实时性能。
Jul, 2022
该研究致力于解决在给定用户注释指向感兴趣的物体的情况下的视频对象分割问题。作者提出了一种基于学习嵌入空间的像素级检索方法,并使用全卷积网络作为嵌入模型,使用修改后的三元组损失进行训练。作者提出的方法支持不同类型的用户输入,如在第一帧中的分割遮罩(半监督情况下),或者一个稀疏的点击点集合(交互情况下),并在计算成本上获得了很好的结果。在半监督场景中,该方法达到了与现有技术相比竞争性的结果,但计算成本仅为每帧 275 毫秒。在交互式场景中,该方法能够实时响应用户的每个输入,并达到了与竞争方法相当的质量,但交互程度要少得多。
Apr, 2018
通过开发一个统一的框架,其中同时建模跨帧密集对应以进行本地区分特征学习并嵌入对象级上下文进行目标掩码解码,从而使得能够直接从未标记的视频中学习执行基于掩码的连续分割,而不是依赖于基于像素的关联的廉价 “复制” 标签的非直接方法。
Mar, 2023
本文提出了一种基于模板匹配和时域一致性损失的半监督视频对象分割模型,以减少复杂性并加快推理时间,既提高了目标对象的定位,又能够处理细节,并通过新的自适应模板注意模块处理对象形状变化。该模型在 DAVIS16 基准上获得了 79.5% 的 J&F 分数,速度为 73.8 FPS。
Nov, 2020