- MinVIS: 一种不需要基于视频训练的最小化视频实例分割框架
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方 - ECCV视频蒙版变换器:用于高质量视频实例分割
本文提出了一种名为 Video Mask Transfiner (VMT) 的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化 - ECCV在线模型在视频实例分割中的防御
通过比较现有的在线模型和离线模型,提出了一种基于对比学习的在线框架,以学习更具区分性的实例嵌入并充分利用历史信息实现关联,显著提高了视频实例分割的性能,特别是在挑战性较大的 OVIS 数据集上表现突出,赢得了第四届大规模视频对象分割挑战赛 - CVPR视频实例分割的时间高效视觉 Transformer
提出了一种名为 TeViT 的视觉 Transformer,它在视频实例分割任务中高效地对关键的时间信息进行建模,并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。
- ICCV基于时空图神经网络的端到端视频实例分割
本文提出了基于图神经网络(GNN)的视频目标实例分割方法,使用图中的节点表示实例特征来进行检测和分割,而使用表示实例关系的图中的边来进行跟踪,有效地传播和共享帧内外信息,同时优化检测、分割和跟踪三个问题,取得了优于现有方法的表现。
- CVPR通过轨迹查询和建议实现高效的视频实例分割
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频 - 视频实例分割的时空对比学习
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 - ECCVSeqFormer: 序列 Transformer 用于视频实例分割
本文介绍了 SeqFormer,一种基于视频实例分割的模型,通过注意力机制捕捉视频帧之间的关系,定位每帧的实例并聚合时间信息,从而实现自然的实例跟踪并预测动态遮罩序列,结合 Swin Transformer 可获得更高的 AP,是视频实例分 - CVPR通过帧间关注力实现物体传播的时间稳定视频实例分割
该论文提出了一种通过利用邻帧预测的空间信息并结合时间域中的帧间注意力机制来提高视频实体分割质量的方法,其在 YouTube-VIS 数据集上取得 36.0% 的 mAP,且该方法是完全在线的,不需要使用未来的视频帧。
- AAAI视频对象识别的时态 RoI Align
在视频物体检测中,使用提取视频中当前帧之前的帧中的信息对当前帧进行检测以提取时序信息是一种自然的选择,本文提出了一种基于特征相似性的新型 Temporal RoI Align 算子,用于从当前视频中的其它帧特征图中提取与当前帧相似的结果,能 - CVPRMSN:视频实例分割的高效在线遮蔽选择网络
本文提出一种新的视频实例分割方法,利用基于 patch 的卷积神经网络设计的掩模选择网络,以及前向和后向推理的时间一致性策略来提高分割结果的准确性,从而实现了对视频中对象的跟踪和分割。该方法在 2021 年 YouTube-VIS 挑战赛中 - 无监督学习视觉表示的对比方法再探
本文将需要自我学习来改进现有模型的数据集偏差性进行了深入研究,并成功地在不同类型数据集上改善了模型,同时介绍了一种具有多尺度裁剪、强数据增强和近邻策略的改进自监督学习方法,并通过 MoCo 模型在语义分割和视频实例分割任务中实现了优秀的效果 - 使用帧间通信变换器进行视频实例分割
本研究提出一种使用 Transformers 实现的视频实例语义分割的端到端解决方案,通过利用内存令牌的紧凑表示和交换信息的方式,提供实时视频处理可行的高精度解决方案。
- 实例作为查询
提出一种 QueryInst 方法,以查询为基础进行实例分割,其实现是通过在动态掩模头上进行并行监督。经过各种实验后,QueryInst 在实例分割和视频实例分割(VIS)任务上达到了最佳表现,在所有在线 VIS 方法中取得了最佳性能并达到 - 快速在线视频实例分割的交叉学习
本文提出了一种快速的在线视频实例分割模型 CrossVIS,通过交叉学习方案,即使用当前帧中的实例特征来像素级定位其他帧中的相同实例,实现了跨帧实例到像素关系的学习,结合实例分割损失,提高了在线实例相关性的准确性和稳定性,在三个具有挑战性的 - 有效的一阶段视频实例分割中的空间特征校准与时间融合
我们提出了一个名为 STMask 的简单而有效的一阶段视频实例分割框架,通过空间校准和时间融合解决了现代一阶段视频实例分割网络的一些限制,它能够处理视频中的挑战性场景并具有很高的性能。
- ICCV基于提议 - 缩减范式的视频实例分割
本研究提出了一种名为 “Propose-Reduce” 的新范式,通过单个步骤为输入视频生成完整的序列,用于视频实例分割,并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。
- CVPRSG-Net: 一阶段视频实例分割的空间粒度网络
本文提出了一种新型的一阶空间粒度网络(SG-Net)来应对视频实例分割任务,相较于传统两步骤方法,其具有更加紧凑的构架以及更好的运行时间复杂度表现,同时在精度上也表现出了更好的性能。
- AAAICompFeat: 视频实例分割的全面特征聚合
本文提出了一种视频实例分割方法 - ComFeat,该方法采用了新的特征聚合方法、注意力机制以及 siamese 设计,可以解决单帧特征难以应对运动模糊和外观变化等问题,同时在 YouTube-VIS 数据集上得到了有效验证。
- CVPR基于 Transformer 的端到端视频实例分割
VisTR 是一种基于 Transformers 的视频实例分割框架,提出了一种新的实例序列匹配和分割策略实现对序列的监督,从相似性学习的角度框架实例分割和跟踪,大大简化了整个流程,并在 YouTube-VIS 数据集上取得了最佳结果和最高