TMT-VIS: 视频实例分割的层级感知多数据集联合训练
本文提出了一种名为 Video Mask Transfiner (VMT) 的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过 HQ-YTVIS 数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。
Jul, 2022
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
该论文提出了 TarViS,这是一种新颖的、统一的网络架构,可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务,它采用了近期具备多任务能力的方法,并使用抽象的 “查询” 来预测像素精度的目标掩码,其中一个 TarViS 模型可以联合训练在不同任务跨越数据集的集合上,并可以在推理过程中在不进行任何任务特定的重新训练的情况下在不同任务之间进行热交换,最终实现了在 5/7 基准测试中实现了这四个任务的最新性能,并在其余两个上具有竞争力。
Jan, 2023
通过对多个视频字幕数据集的正确组合,我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术,成果展示了在无微调的情况下,单一模型在两个数据集上实现了最先进的结果。
Mar, 2021
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。
Mar, 2023
本文提出了 MDViT,这是第一个包含领域适配器的多领域 ViT,通过自适应地利用多个小型数据资源 (领域) 中的知识来减轻数据饥饿和对抗 NKT,实现增强跨领域的表示学习。在 4 个皮肤病变分割数据集上的实验表明,MDViT 胜过了最先进的算法,在推理时具有更好的分割性能和固定模型大小,即使增加更多的领域。
Jul, 2023
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023
通过多个角度利用实例框注释生成高质量的伪实例掩码,并引入两种基于高质量伪实例掩码的真实数据过滤方法,以提高训练数据集质量并改善完全监督的 VIS 方法性能。通过整合掩码损失到 IDOL-BoxInst 中,我们的 PM-VIS 模型在实例掩码预测方面表现出较强能力,在 YouTube-VIS 2019、YouTube-VIS 2021 和 OVIS 验证集上取得了最新的最佳性能,显著缩小了基于框监督和完全监督的 VIS 方法之间的差距。
Apr, 2024
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
通过利用图像数据集,本研究介绍了一种消除视频注释的方法,并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别,并通过 PM-VIS + 算法根据注释类型调整监督。通过在未注释的视频数据上使用伪掩码和半监督优化技术来提高准确性。这种方法在没有手动视频注释的情况下实现了高水平的视频实例分割性能,为视频实例分割应用提供了具有成本效益的解决方案和新的视角。代码将在此 https 网址上提供。
Jun, 2024