- 高性能视频实例分割无需视频注释
通过利用图像数据集,本研究介绍了一种消除视频注释的方法,并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别,并通过 PM-VIS + 算法根据注释类型调整监督。通 - CVPRUVIS: 无监督视频实例分割
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括 - 视频实例分割中的点监督价值是多少?
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
- 基于布朗桥的开放词汇视频实例分割
我们提出了一种名为 BriVIS 的方法,通过建立帧级实例表示与类别文本之间的布朗桥对准,实现了更精确的开放词汇 VIS,超越了 OV2Seg,并在挑战性数据集 BURST 上取得了 7.43 的 mAP,相比 OV2Seg 提高了 49. - DVIS++: 通用视频分割的改进解耦框架
我们提出了一种新颖的 Decoupled VIdeo Segmentation (DVIS) 框架,用于解决通用视频分割的难题,包括视频实例分割 (VIS),视频语义分割 (VSS) 和视频全景分割 (VPS)。通过将视频分割解耦成三个级联 - TMT-VIS: 视频实例分割的层级感知多数据集联合训练
通过提供额外的分类信息,我们提出了一种名为 TMT-VIS 的模型,用于视频实例分割的多数据集联合训练,该模型在四个流行且具有挑战性的基准测试中均显著改善了基线解决方案,并创下了新的最先进记录。
- CML-MOTS:协同多任务学习用于多目标跟踪和分割
我们提出了一个在视频帧上进行实例级视觉分析的有效框架,可以同时进行对象检测、实例分割和多对象跟踪。通过一种名为关联连接的新型结构,我们实现了协同多任务学习,在可学习的 CNN 中的检测、分割和跟踪任务之间建立了额外的连接。这些额外的连接允许 - 视频实例分割的深度学习技术综述
视频实例分割是一项新兴的计算机视觉研究领域,该论文调查了基于深度学习的视频实例分割方案,包括架构设计、性能比较、模型复杂度和计算开销,以及改进性能和未来研究方向等方面的信息。
- ICCVTCOVIS:时序一致性在线视频实例分割
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
- NOVIS:面向端到端近在线视频实例分割的案例
近期的研究表明,针对具有挑战性和长视频序列而言,传统的离线方法不一定优于逐帧的在线处理。本研究提出了新的面向近在线视频实例分割(NOVIS)方法,并通过详细分析不同处理范式和新的端到端可训练模型,证明了该方法的优越性,并在 YouTube- - 第 5 届 LSVOS 挑战赛冠军解决方案:视频实例分割
视频实例分割方法 DVIS 在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪,并利用 DINO v2 预训练的冻结的 VIT-L 模型探索了视觉基础模型在视频实例分割中的作用,最终在第 5 届 LSVOS 挑战赛中获得了 - CVPR2023 BURST 长尾和开放世界挑战的第一名解决方案
目前,视频实例分割(VIS)旨在从训练类别的有限集中对视频中的对象进行分割和分类,但缺乏处理真实世界视频中多样对象的能力。本研究在长尾和开放世界场景下研究了 VIS,通过训练模型在 LVISv0.5 和 COCO 数据集上,并在 TAO 数 - RefineVIS: 带有时间注意力细化的视频实例分割
介绍了一种名为 RefineVIS 的视频实例分割框架,该框架通过使用序列上下文反复改进表示来实现帧间的良好对象关联和精确的分割掩模。
- DVIS: 解耦的视频实例分割框架
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架 (DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
- GRAtt-VIS: 带门限的残差注意力用于自动矫正视频实例分割
介绍了一种名为 GRAtt-VIS 的基于 GRAtt 块和控制门激活的 Gumbel-Softmax 的视频实例分割方法,该方法可以通过缓解在线方法的表征退化和噪声积累的影响来提高视频实例分割的精度。
- 开放式视频实例分割
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
- 开放世界中的视频实例分割
提出了第一个开放式视频实例分割 (Open-World Video Instance Segmentation, OW-VIS) 方法 ——OW-VISFormer,它引入了一个新的特征增强机制和一个时空客体性 (Spatio-Tempor - CVPR无遮挡视频实例分割
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准 - CVPR视频实例分割的通用框架
提出了基于查询式训练和具有前状态信息的内存模块用于序列学习的通用可变的视频实例分割(GenVIS)方法,并在多个基准测试中取得了优秀的结果。
- ECCV基于实例的身份:视频实例分割的通用在线范式
本文提出了一种新的在线视频实例分割范例,名为 Instance As Identity (IAI),通过使用新的识别和关联模块,将时态信息集成到在线模型中,成功地在三个不同的半监督挑战中超越了所有的竞争者。