多模态变换器的端到端指代视频对象分割

CVPRNov, 2021

多模态变换器的端到端指代视频对象分割

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin

TL;DR本文提出了一种名为 Multimodal Tracking Transformer（MTTR）的基于 Transformer 的方法来实现 referring video object segmentation（RVOS）任务，该方法将视频和文本结合起来处理，不依赖于复杂的流水线，并且在标准基准测试中显著优于以前的方法。

Abstract

The referring video object segmentation task (RVOS) involves segmentation of a text-referred object instance in the frames of a given video. Due to the complex nature of this multimodal task, which combines text reasoning, video understanding, instance segmentation and tracking, existi

referring video object segmentation multimodal tracking transformer sequence prediction computer vision natural language processing

发现论文，激发创造

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Jun, 2021

全程 Transformer 装备的端到端指代视频物体分割

提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架，通过学习 mask 序列解决视频中物体的分割问题，并通过 Stacked Transformer 来捕捉物体级别的空间上下文。

Sep, 2023

融合多种模态信息的统一视频物体分割时序变换器

本文提出了 MUTR，通过统一框架和两种策略，实现了同时支持文本和音频引用的视频对象分割，实现了视频内部各帧的时序交互，从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J＆F 性能。

May, 2023

第一名解决方案：第五届 LSVOS 挑战赛 - 视频对象引用分割

通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合，提出了一种有效的模式，该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F，在测试集上实现了 70% 的 J&F，在第 5 届大规模视频对象分割挑战（ICCV 2023）的第 3 组中排名第一。

Jan, 2024

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

在线 Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences，结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩，优于所有其他离线方法。

Jul, 2023

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023

学习跨模态关联性以用于有限样本的参照视频对象分割

提出了一种基于 Transformer 架构的简单而有效的模型，该模型通过新设计的跨模态亲和力（CMA）模块在很少的样本上构建多模态亲和力，从而快速学习新的语义信息，并使模型可适应不同场景，为少样本的视频目标指代分割（FS-RVOS）问题提供了一种解决方案。在新建立的 FS-RVOS 基准上进行了广泛实验，结果显示我们的模型在只有少数样本的情况下能很好地适应不同场景，达到了基准上的最先进性能。

Sep, 2023