从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

Jun, 2021

从自上而下的视角重新思考跨模态交互，用于指代视频对象分割

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation

Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang...

TL;DR该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案，其中构建了一组详尽的对象 tracklets，并提出了一种 Transformer-based tracklet-language grounding 模块，模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。

Abstract

referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference ove

referring video object segmentation natural language reference transformer-based tracklet-language grounding module instance-level visual relations cvpr2021 referring youtube-vos challenge

发现论文，激发创造

基于帧间交互和跨模态相关性的视频目标分割

本文提出了 IFIRVOS 框架用于改善视频中的目标分割，其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性，从而提高了分割结果的准确性和模型的性能。

Jul, 2023

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为 VLP-RVOS 的框架，通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间，解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模，以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

在线 Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences，结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩，优于所有其他离线方法。

Jul, 2023

使用语言查询进行视频对象分割

该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

第一名解决方案：第五届 LSVOS 挑战赛 - 视频对象引用分割

通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合，提出了一种有效的模式，该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F，在测试集上实现了 70% 的 J&F，在第 5 届大规模视频对象分割挑战（ICCV 2023）的第 3 组中排名第一。

Jan, 2024

从弱监督的注释中学习视频物体指代分割

基于一种新的注释方案，我们提出了一种弱监督的方法，通过语言引导的动态过滤器和双层对比学习方法，实现了在不要求密集标注的情况下取得了有竞争力的性能。

Aug, 2023

多模态变换器的端到端指代视频对象分割

本文提出了一种名为 Multimodal Tracking Transformer（MTTR）的基于 Transformer 的方法来实现 referring video object segmentation（RVOS）任务，该方法将视频和文本结合起来处理，不依赖于复杂的流水线，并且在标准基准测试中显著优于以前的方法。

Nov, 2021

基于语义的物体聚类在视频物体分割任务中的应用

通过语义辅助对象聚类（SOC）的多模态对比监督和强调时间上的连贯性，提出了一种在视频级别视觉语言对齐的增强下，对引用视频对象分割（RVOS）的研究，有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验，并在所有基准测试中，我们的方法都以显著的优势优于现有的最先进竞争对手。

May, 2023

长短文本联合预测网络：应用于指代视频目标分割

本文提出了一种基于短文本表达的参考视频对象分割方法，结合长短文本表达进行联合预测，并引入了一种前向 - 后向视觉一致性损失，实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。

Jun, 2023

RefVOS：关注视频对象分割中的指代表达

本研究提出了一种新的分类方式，评估了现有基准用于语言引导视频对象分割的任务，并分析了一个新型神经网络（RefVOS）在该任务上的表现。研究结果显示，理解视频中的动静作用是该任务的主要挑战。

Oct, 2020