全程 Transformer 装备的端到端指代视频物体分割
本文提出了一种名为 Multimodal Tracking Transformer(MTTR)的基于 Transformer 的方法来实现 referring video object segmentation(RVOS)任务,该方法将视频和文本结合起来处理,不依赖于复杂的流水线,并且在标准基准测试中显著优于以前的方法。
Nov, 2021
通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合,提出了一种有效的模式,该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F, 在测试集上实现了 70% 的 J&F,在第 5 届大规模视频对象分割挑战(ICCV 2023)的第 3 组中排名第一。
Jan, 2024
该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信息的动态卷积核,用于从特征映射中生成分割掩码,因此可以极大地简化管道并显著区别于先前的方法。
Jan, 2022
该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案,其中构建了一组详尽的对象 tracklets,并提出了一种 Transformer-based tracklet-language grounding 模块,模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。
Jun, 2021
该研究提出了一种名为 VLP-RVOS 的框架,通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间,解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模,以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理,实验证明该方法优于现有算法并具有强大的泛化能力。
May, 2024
本文提出了 IFIRVOS 框架用于改善视频中的目标分割,其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性,从而提高了分割结果的准确性和模型的性能。
Jul, 2023
通过引用视频目标分割(RVOS)的方法,本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型,它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性,并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估,即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences,结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩,优于所有其他离线方法。
Jul, 2023
提出了一种基于 Transformer 架构的简单而有效的模型,该模型通过新设计的跨模态亲和力(CMA)模块在很少的样本上构建多模态亲和力,从而快速学习新的语义信息,并使模型可适应不同场景,为少样本的视频目标指代分割(FS-RVOS)问题提供了一种解决方案。在新建立的 FS-RVOS 基准上进行了广泛实验,结果显示我们的模型在只有少数样本的情况下能很好地适应不同场景,达到了基准上的最先进性能。
Sep, 2023
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
Jun, 2021
本文提出了一种基于短文本表达的参考视频对象分割方法,结合长短文本表达进行联合预测,并引入了一种前向 - 后向视觉一致性损失,实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。
Jun, 2023