TMT-VIS: 视频实例分割的层级感知多数据集联合训练

Dec, 2023

TMT-VIS: 视频实例分割的层级感知多数据集联合训练

TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation

Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang...

TL;DR通过提供额外的分类信息，我们提出了一种名为 TMT-VIS 的模型，用于视频实例分割的多数据集联合训练，该模型在四个流行且具有挑战性的基准测试中均显著改善了基线解决方案，并创下了新的最先进记录。

Abstract

Training on large-scale datasets can boost the performance of video instance segmentation while the annotated datasets for VIS are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly train models a

video instance segmentation large-scale datasets taxonomy information multi-dataset joint training state-of-the-art records

发现论文，激发创造

视频蒙版变换器：用于高质量视频实例分割

本文提出了一种名为 Video Mask Transfiner (VMT) 的方法，该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征，并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法，并通过 HQ-YTVIS 数据集对本文提出的方法进行了实验验证。实验结果表明，该方法可以有效地分割复杂和动态的物体，捕捉精细的细节。

Jul, 2022

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

TarViS: 基于目标的视频分割的统一方法

该论文提出了 TarViS，这是一种新颖的、统一的网络架构，可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务，它采用了近期具备多任务能力的方法，并使用抽象的 “查询” 来预测像素精度的目标掩码，其中一个 TarViS 模型可以联合训练在不同任务跨越数据集的集合上，并可以在推理过程中在不进行任何任务特定的重新训练的情况下在不同任务之间进行热交换，最终实现了在 5/7 基准测试中实现了这四个任务的最新性能，并在其余两个上具有竞争力。

Jan, 2023

MDMMT：用于视频检索的多领域多模态 Transformer

通过对多个视频字幕数据集的正确组合，我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术，成果展示了在无微调的情况下，单一模型在两个数据集上实现了最先进的结果。

Mar, 2021

无遮挡视频实例分割

本文提出了一种采用类似 KNN 特征匹配的方式，而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS，并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。

Mar, 2023

MDViT：用于小型医学影像分割数据集的多领域视觉 Transformer

本文提出了 MDViT，这是第一个包含领域适配器的多领域 ViT，通过自适应地利用多个小型数据资源 (领域) 中的知识来减轻数据饥饿和对抗 NKT，实现增强跨领域的表示学习。在 4 个皮肤病变分割数据集上的实验表明，MDViT 胜过了最先进的算法，在推理时具有更好的分割性能和固定模型大小，即使增加更多的领域。

Jul, 2023

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

PM-VIS: 高性能有框标注视频实例分割

通过多个角度利用实例框注释生成高质量的伪实例掩码，并引入两种基于高质量伪实例掩码的真实数据过滤方法，以提高训练数据集质量并改善完全监督的 VIS 方法性能。通过整合掩码损失到 IDOL-BoxInst 中，我们的 PM-VIS 模型在实例掩码预测方面表现出较强能力，在 YouTube-VIS 2019、YouTube-VIS 2021 和 OVIS 验证集上取得了最新的最佳性能，显著缩小了基于框监督和完全监督的 VIS 方法之间的差距。

Apr, 2024

UVIS: 无监督视频实例分割

UVIS 是一种无监督视频实例分割框架，利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力，通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现，通过采用双存储器设计，包括语义存储器和跟踪存储器，以提高无监督环境下 VIS 预测的质量，在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果，展示了该无监督 VIS 框架的潜力。

Jun, 2024

高性能视频实例分割无需视频注释

通过利用图像数据集，本研究介绍了一种消除视频注释的方法，并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别，并通过 PM-VIS + 算法根据注释类型调整监督。通过在未注释的视频数据上使用伪掩码和半监督优化技术来提高准确性。这种方法在没有手动视频注释的情况下实现了高水平的视频实例分割性能，为视频实例分割应用提供了具有成本效益的解决方案和新的视角。代码将在此 https 网址上提供。

Jun, 2024