基于 Transformer 的端到端视频实例分割
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在 YouTube-VIS 基准测试上达到了最先进的准确率。
Mar, 2022
本研究提出一种使用 Transformers 实现的视频实例语义分割的端到端解决方案,通过利用内存令牌的紧凑表示和交换信息的方式,提供实时视频处理可行的高精度解决方案。
Jun, 2021
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
Apr, 2022
本文提出了一种名为 Video Mask Transfiner (VMT) 的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过 HQ-YTVIS 数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。
Jul, 2022
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。
Feb, 2022
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
近期的研究表明,针对具有挑战性和长视频序列而言,传统的离线方法不一定优于逐帧的在线处理。本研究提出了新的面向近在线视频实例分割(NOVIS)方法,并通过详细分析不同处理范式和新的端到端可训练模型,证明了该方法的优越性,并在 YouTube-VIS(2019/2021)和 OVIS 基准测试中取得了新的最先进的结果。
Aug, 2023
该论文提出了 TarViS,这是一种新颖的、统一的网络架构,可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务,它采用了近期具备多任务能力的方法,并使用抽象的 “查询” 来预测像素精度的目标掩码,其中一个 TarViS 模型可以联合训练在不同任务跨越数据集的集合上,并可以在推理过程中在不进行任何任务特定的重新训练的情况下在不同任务之间进行热交换,最终实现了在 5/7 基准测试中实现了这四个任务的最新性能,并在其余两个上具有竞争力。
Jan, 2023