交互式 Transformer 连体网络用于视频目标分割

Dec, 2021

交互式 Transformer 连体网络用于视频目标分割

Siamese Network with Interactive Transformer for Video Object Segmentation

Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang

TL;DR本文提出了一种基于双模型网络和交互式变换器的半监督视频对象分割方法，能够有效地从历史帧向当前帧传播上下文信息，同时使用特征交互模块，提高了目标表示的性能，并通过三种基准实验验证了其优于现有方法的性能.

Abstract

semi-supervised video object segmentation (VOS) refers to segmenting the target object in remaining frames given its annotation in the first frame, which has been actively studied in recent years. The key challen

semi-supervised video object segmentation siamese network interactive transformer spatio-temporal context

发现论文，激发创造

TransVOS: 带有 Transformer 的视频目标分割

本文提出了一种新的基于 transformer 的框架 TransVOS，利用视觉 transformer 来充分利用和建模时间和空间关系，在保持效果的同时减少了模型参数和复杂性，从而实现了半监督视频对象分割中的最新性能。

Jun, 2021

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

简化框架下可扩展的视频对象分割

本研究提出了一种可扩展的简化 VOS（SimVOS）框架，通过利用单个转换器主干进行联合特征提取和匹配，从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明，SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果，即 DAVIS-2017（88.0％J＆F），DAVIS-2016（92.9％J＆F）和 YouTube-VOS 2019（84.2％J＆F），而不使用任何先前 VOS 方法中使用的合成视频或 BL30K 预训练。

Aug, 2023

双时序记忆网络用于高效的视频目标分割

本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战，包括短期记忆子网络和长期记忆子网络，通过图形学习框架提高局部区域间的可视一致性，在三个常用的数据集上取得了非常好的性能。

Mar, 2020

视频对象分割的一次性训练

本论文提出了一种视频目标分割 (VOS) 的新的一次性训练框架，只需要一个标记的帧来训练，并适用于大多数最先进的 VOS 网络。通过双向训练，我们得到了一个令人满意的 VOS 网络，仅使用了 YouTube-VOS 和 DAVIS 数据集的一个标记的帧，达到了与完全标记的数据集训练的结果相当的效果。

May, 2024

视频对象分割的学习策略

该研究提出了一种新的、自动化的视频物体分割方法，通过集成一种可区分的少量样本学习模块，提高了分割精度，实现了当前 YouTube-VOS 2018 数据集的最新最佳分数，并使相对改进率达到了 2.6％以上。

Mar, 2020

被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer 中新兴的对象性，避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能，特别在复杂的现实世界多对象视频分割任务中表现出色，如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

Nov, 2023

OneVOS: 统一视频对象分割的全能变压器框架

在这篇论文中，我们提出了 OneVOS，这是一个使用全新的 All-in-One Transformer 将 VOS 核心组件统一起来的框架。我们通过将帧、掩码和多个对象的所有特征建模为 Transformer tokens，通过灵活的注意力机制整体完成多个对象的特征提取、匹配和记忆管理。此外，我们通过原始注意力操作的两个解耦合来提出了一种单向混合注意力，以更正 OneVOS 框架中存储的 token 的语义错误和歧义。最后，为了减轻存储负担并加快推理速度，我们提出了动态 Token 选择器，该选择器揭示了 OneVOS 的工作机制，并自然而然地导致了更高效的 OneVOS 版本。广泛的实验证明了 OneVOS 的优越性，在七个数据集上实现了最先进的性能，特别是在复杂的 LVOS 和 MOSE 数据集上，J＆F 得分分别为 70.1％和 66.4％，超过了先前最先进的方法 4.2％和 7.0％。我们的代码可供再现性和进一步研究。

Mar, 2024