模块化交互式视频物体分割:交互到掩膜,传播和差异感知融合
本研究提出了一种称为记忆聚合网络的统一框架,以更高效的方式解决交互式视频对象分割的问题,通过将交互和传播操作整合到单个网络中,并提出一种简单而有效的记忆聚合机制,大大提高了发现有挑战性的感兴趣对象的鲁棒性。在 DAVIS Challenge 2018 基准验证集上进行了广泛的实验,特别地,我们的 MA-Net 在没有任何更多附加的部分下达到了 76.1% 的 J@60 分数,超过了最先进的技术 2.7% 以上。
Mar, 2020
本研究提出了一种可扩展的简化 VOS(SimVOS)框架,通过利用单个转换器主干进行联合特征提取和匹配,从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明,SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果,即 DAVIS-2017(88.0%J&F),DAVIS-2016(92.9%J&F)和 YouTube-VOS 2019(84.2%J&F),而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。
Aug, 2023
在这篇论文中,我们提出了 OneVOS,这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens,通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外,我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力,以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后,为了减轻存储负担并加快推理速度,我们提出了动态 Token 选择器,该选择器揭示了 OneVOS 的工作机制,并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性,在七个数据集上实现了最先进的性能,特别是在复杂的 LVOS 和 MOSE 数据集上,J&F 得分分别为 70.1%和 66.4%,超过了先前最先进的方法 4.2%和 7.0%。我们的代码可供再现性和进一步研究。
Mar, 2024
本文提出了一种基于马尔可夫决策过程和深度强化学习框架的交互式视频物体分割方法,使得用户注释的最有价值的帧能够被自动推荐,从而在野外环境中实现了更实用的交互设置,实验结果也证明了本方法的有效性。
Mar, 2021
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
本研究提出了一种端到端的深度神经网络,结合了 Mask-RCNN 实例分割网络和 Conv-GRU 视觉记忆模块,用于解决半监督视频对象分割任务,实验结果表明该方法在 DAVIS 数据集上取得了令人满意的结果。
Sep, 2019
基于 RVOS 方法,我们利用从视频实例分割模型获取的掩膜信息作为临时信息进行时间增强,并采用 SAM 进行空间细化,最终在验证阶段取得了 49.92 J &F 的得分,在测试阶段取得了 54.20 J &F 的得分,在 2024 CVPR PVUW 挑战赛的 MeViS 轨道中获得了第 2 名的最终排名。
Jun, 2024
EVA-VOS 是一种视频目标分割的人机协作注释框架,通过引入代理模型进行逐帧帧选择和注释类型预测,可以实现高准确度且比传统视频注释方法快 3.5 倍的对象掩模生成与注释时间降低。
Nov, 2023
我们提出了一种名为 PReMVOS 的半监督视频对象分割算法,它将问题分为生成准确的对象分割掩码提案和选择和合并这些提案成为准确且时间上连续的像素级对象轨迹,并在同时处理跨视频序列分割多个对象的困难问题方面取得了最先进的结果。
Jul, 2018