视频目标分割的特征、对应关系和压缩记忆的联合建模
本研究提出了一种可扩展的简化 VOS(SimVOS)框架,通过利用单个转换器主干进行联合特征提取和匹配,从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明,SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果,即 DAVIS-2017(88.0%J&F),DAVIS-2016(92.9%J&F)和 YouTube-VOS 2019(84.2%J&F),而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。
Aug, 2023
最近,视频对象分割(VOS)网络通常使用基于记忆的方法:对于每个查询帧,通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能,但存在两个问题:1)具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2)像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题,我们首先提出在相邻帧之间生成一个辅助帧,作为查询帧的隐式短时间参考。随后,我们为每个视频对象学习一个原型,并在查询帧和记忆帧之间实施原型级匹配。实验证明,在 DAVIS 2017 上我们的网络优于最先进的方法,达到了 86.4% 的 J&F 分数,并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外,我们的网络的推理速度为 32+ FPS。
May, 2024
本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法,该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。
Apr, 2023
该论文提出了一种名为 LCM 的基于记忆机制的视频目标分割方法,该方法采用了位置一致性和目标一致性的学习框架来解决现有方法在视频帧序列中没有利用目标级别知识和序贯性,导致准确性下降问题,实验结果表明该方法在 DAVIS 和 Youtube-VOS 基准测试中均表现出卓越性能,并在 DAVIS 2020 挑战赛中排名第一。
Apr, 2021
本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战,包括短期记忆子网络和长期记忆子网络,通过图形学习框架提高局部区域间的可视一致性,在三个常用的数据集上取得了非常好的性能。
Mar, 2020
在这篇论文中,我们提出了 OneVOS,这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens,通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外,我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力,以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后,为了减轻存储负担并加快推理速度,我们提出了动态 Token 选择器,该选择器揭示了 OneVOS 的工作机制,并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性,在七个数据集上实现了最先进的性能,特别是在复杂的 LVOS 和 MOSE 数据集上,J&F 得分分别为 70.1%和 66.4%,超过了先前最先进的方法 4.2%和 7.0%。我们的代码可供再现性和进一步研究。
Mar, 2024
通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用大规模的 MOSE 2023 数据集训练模型,该方法在各种复杂场景中展现了强大的性能。
May, 2024
通过提出一种新颖的,DET-R 风格的编码器 - 解码器架构,我们克服了长视频中有关小对象的数据特性所带来的挑战,并在两个复杂数据集上实现了最先进的性能。
Dec, 2023
视频目标分割是计算机视觉中的重要任务,研究了切割模型的灵感、对象记忆、内存帧总数和输入分辨率对分割性能的影响,并在复杂视频目标分割(MOSE)数据集上验证了我们方法的有效性,实验结果表明在测试集上达到了 0.8139 的 J&F 得分,在处理具有挑战性的 VOS 场景中具有强大的鲁棒性和准确性。
Jun, 2024