释放GPT的时空推理能力以实现无训练的音频和语言参考视频物体分割

Aug, 2024

释放GPT的时空推理能力以实现无训练的音频和语言参考视频物体分割

Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation

HTML

PDF

Shaofei Huang, Rui Ling, Hongyu Li, Tianrui Hui, Zongheng Tang...

TL;DR本研究解决了音频和语言参考视频物体分割（AVS和RVOS）中的无训练范式问题。我们提出了一种新颖的GPT辅助枢轴选择模块，通过时空推理选择关键帧和关键框，从而为物体分割提供高质量的初始提示。此外，我们的AL-Ref-SAM 2管道在多项测试中表现优于或媲美于全监督微调方法，展示了其潜在的影响力。

Abstract

In this paper, we propose an Audio-Language-Referenced SAM 2 (AL-Ref-SAM 2) pipeline to explore the Training-Free paradigm for audio and language-referenced Video Object Segmentation, namely AVS and RVOS tasks. T

发现论文，激发创造

RVOS：端到端的循环神经网络用于视频对象分割

该研究提出了一种基于循环神经网络的视频多目标分割模型，实现了零样本学习和时间上的目标连贯性，此模型在DAVIS-2017和YouTube-VOS基准测试上取得了优异的表现，并且其推理时间比现有方法更快。

Mar, 2019

多模态变换器的端到端指代视频对象分割

本文提出了一种名为Multimodal Tracking Transformer（MTTR）的基于Transformer的方法来实现referring video object segmentation（RVOS）任务，该方法将视频和文本结合起来处理，不依赖于复杂的流水线，并且在标准基准测试中显著优于以前的方法。

Nov, 2021

语言桥接的时空交互用于参考视频对象分割

本文提出了一种利用语言作为中介桥梁的LBDT模块来实现更早的显式和自适应的空间-时间交互的方法，同时在解码阶段使用BCA模块进一步去噪并强调空间-时间一致特征，通过该方法在四个受欢迎的基准测试中取得了6.8％和6.9％的绝对AP增益。

Jun, 2022

基于语义的物体聚类在视频物体分割任务中的应用

通过语义辅助对象聚类（SOC）的多模态对比监督和强调时间上的连贯性，提出了一种在视频级别视觉语言对齐的增强下，对引用视频对象分割（RVOS）的研究，有效利用间帧关系和理解对象时间变化的文本描述。进行了大量的实验，并在所有基准测试中，我们的方法都以显著的优势优于现有的最先进竞争对手。

May, 2023

指代视频对象分割的时态采集与分发

视频对象分割通过自然语言表达对视频序列中的参照物进行分割，提出了同时维护全局参照标记和一系列对象查询的方法，以实现对对象在帧级别的定位和分割，进而利用新颖的时间采集-分布机制来捕捉对象动态并进行时空交叉模态推理，实验结果表明，该方法在所有基准测试中始终显著优于最先进的方法。

Sep, 2023

全程Transformer装备的端到端指代视频物体分割

提出了一种基于transformers的完全建立在Referring Video Object Segmentation任务上的框架，通过学习mask序列解决视频中物体的分割问题，并通过Stacked Transformer来捕捉物体级别的空间上下文。

Sep, 2023

利用视觉语言预训练模型驱动参考视频对象分割

该研究提出了一种名为VLP-RVOS的框架，通过使用先前训练的Vision-Language Pre-trained (VLP)模型的对齐VL特征空间，解决了Referring Video Object Segmentation (RVOS)中的转移挑战。该方法通过引入一种时间感知的prompt-tuning方法和多阶段VL关系建模，以及自定义的立方体帧注意力机制进行综合的VL理解和空时推理，实验证明该方法优于现有算法并具有强大的泛化能力。

May, 2024

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024

GroPrompt：用于参考视频对象分割的高效基于上下文提示和适应性

该研究提出了一种基于Grounded Prompting (GroPrompt)框架的高效适应基础分割模型来解决仅通过弱监督信息进行Referring Video Object Segmentation (RVOS)的问题，并提出了Text-Aware Prompt Contrastive Learning (TAP-CL)方法来增强位置提示和指代句子之间的关联。实验证明，该GroPrompt框架在标准RVOS基准测试中表现出竞争力，仅需边界框的弱监督信息即可。

Jun, 2024

第二届LSVOS挑战赛RVOS赛道的解决方案：空间-时间细化以实现一致的语义分割

该研究解决了引用视频目标分割（RVOS）中的时间一致性问题，现有模型在长时间序列上存在感知不一致的缺陷。通过利用新引入的Segment Anything Model版本2（SAM-v2）的跟踪能力，本研究提出了一种新的方法，显著提高了引用对象分割模型的时间一致性，最终在ECCV 2024 LSVOS挑战赛RVOS赛道中获得第二名。

Aug, 2024