使用语言查询进行视频对象分割
该研究提出了一种基于 Transformer 的两阶段自顶向下 Referring video object segmentation 解决方案,其中构建了一组详尽的对象 tracklets,并提出了一种 Transformer-based tracklet-language grounding 模块,模型在 CVPR2021 Referring Youtube-VOS 挑战赛上排名第一。
Jun, 2021
通过引用视频目标分割(RVOS)的方法,本研究提出了一种名为 OnlineRefer 的简单而有效的在线模型,它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性,并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估,即 Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences 和 JHMDB-Sentences,结果表明我们的 OnlineRefer 在 Refer-Youtube-VOS 和 Refer-DAVIS17 上取得了 63.5 J&F 和 64.8 J&F 的成绩,优于所有其他离线方法。
Jul, 2023
本研究提出了一种新的分类方式,评估了现有基准用于语言引导视频对象分割的任务,并分析了一个新型神经网络(RefVOS)在该任务上的表现。研究结果显示,理解视频中的动静作用是该任务的主要挑战。
Oct, 2020
本文提出了 IFIRVOS 框架用于改善视频中的目标分割,其中设计的插件式 Transformer 编码器中的帧间交互模块和视觉语言交互模块提高了空时特征学习和视觉和语言特征之间的相关性,从而提高了分割结果的准确性和模型的性能。
Jul, 2023
提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架,通过学习 mask 序列解决视频中物体的分割问题,并通过 Stacked Transformer 来捕捉物体级别的空间上下文。
Sep, 2023
通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合,提出了一种有效的模式,该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F, 在测试集上实现了 70% 的 J&F,在第 5 届大规模视频对象分割挑战(ICCV 2023)的第 3 组中排名第一。
Jan, 2024
该研究提出了一种名为 VLP-RVOS 的框架,通过使用先前训练的 Vision-Language Pre-trained (VLP) 模型的对齐 VL 特征空间,解决了 Referring Video Object Segmentation (RVOS) 中的转移挑战。该方法通过引入一种时间感知的 prompt-tuning 方法和多阶段 VL 关系建模,以及自定义的立方体帧注意力机制进行综合的 VL 理解和空时推理,实验证明该方法优于现有算法并具有强大的泛化能力。
May, 2024
本文提出了一种名为 Multimodal Tracking Transformer(MTTR)的基于 Transformer 的方法来实现 referring video object segmentation(RVOS)任务,该方法将视频和文本结合起来处理,不依赖于复杂的流水线,并且在标准基准测试中显著优于以前的方法。
Nov, 2021
基于一种新的注释方案,我们提出了一种弱监督的方法,通过语言引导的动态过滤器和双层对比学习方法,实现了在不要求密集标注的情况下取得了有竞争力的性能。
Aug, 2023
本文提出了一种基于短文本表达的参考视频对象分割方法,结合长短文本表达进行联合预测,并引入了一种前向 - 后向视觉一致性损失,实现了在 A2D-Sentences 和 JHMDB-Sentences 数据集上表现出的显著性改进。
Jun, 2023