DeVOS: 流引导的可变形变压器用于视频对象分割
我们在视频中对象的分割问题上提出了一种新的管道(FODVid),它基于使用流引导图割和时间一致性的思想来引导分割输出,通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型,我们的方法在无监督的视频对象分割中取得了与现有顶级方法相当的结果(在 mIoU 范围内相差约 2 个单位),我们技术的简单性和效果为视频领域的研究开辟了新的研究途径。
Jul, 2023
通过在动态视频的对象分割中集成场景全局运动知识,我们展示了从其他领域的视频理解中转移知识并结合大规模学习可以提高复杂环境下的鲁棒性。我们提出了一种半监督视频对象分割架构,利用运动理解中的现有知识进行更平滑的传播和更准确的匹配。同时,我们使用大规模的 MOSE 2023 数据集训练模型,该方法在各种复杂场景中展现了强大的性能。
May, 2024
本研究提出了一种可扩展的简化 VOS(SimVOS)框架,通过利用单个转换器主干进行联合特征提取和匹配,从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明,SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果,即 DAVIS-2017(88.0%J&F),DAVIS-2016(92.9%J&F)和 YouTube-VOS 2019(84.2%J&F),而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。
Aug, 2023
在这篇论文中,我们提出了 OneVOS,这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens,通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外,我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力,以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后,为了减轻存储负担并加快推理速度,我们提出了动态 Token 选择器,该选择器揭示了 OneVOS 的工作机制,并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性,在七个数据集上实现了最先进的性能,特别是在复杂的 LVOS 和 MOSE 数据集上,J&F 得分分别为 70.1%和 66.4%,超过了先前最先进的方法 4.2%和 7.0%。我们的代码可供再现性和进一步研究。
Mar, 2024
使用多任务学习的扩散方法,我们发展了一种半自监督时空方法,通过模拟真实视频的光流和运动来合成可用于训练 DVOS 模型的计算机注释视频;在小麦头部分割方面,我们提出的方法表现出较高的性能,当在无人机捕捉的外部测试集上进行测试时,Dice 分数达到了 0.82。
Jun, 2024
介绍了一种基于 Transformer 的视频对象分割方法,称为 Sparse Spatiotemporal Transformers (SST),使用稀疏注意力抽取每个对象的每个像素表示,同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果,并具有比现有技术更好的可扩展性和鲁棒性。
Jan, 2021
本文介绍了一种将 “tracking-by-detection” 引入视频对象分割的方法,通过提出一种新的时间聚合网络和新的动态时间演进模板匹配机制,成功将分割与跟踪相一致,并在 DAVIS 基准测试中取得了新的最优表现。
Jul, 2020
本文提出了一种基于模板匹配和时域一致性损失的半监督视频对象分割模型,以减少复杂性并加快推理时间,既提高了目标对象的定位,又能够处理细节,并通过新的自适应模板注意模块处理对象形状变化。该模型在 DAVIS16 基准上获得了 79.5% 的 J&F 分数,速度为 73.8 FPS。
Nov, 2020
该研究提出了一种新的视频对象分割方式,它由轻量级模块和分割模型两部分组成。在推理阶段使用快速优化技术学习目标外观模型,以预测出粗略但鲁棒的目标分割,然后将粗略的分数转化成高质量的分割掩模,该模式具有快速、易于训练、在有限的训练数据情况下仍然高效等优点。在挑战性的 YouTube-VOS 和 DAVIS 数据集上进行了广泛实验,其结果与现有技术相比具有更高的帧率和优异的性能。
Feb, 2020
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
Jun, 2021