- 视频目标分割的时空多层关联
该研究提出了一种空间 - 时间多层次关联框架,以解决现有半监督视频对象分割方法在空间特征匹配和时空特征建模方面的限制,并通过空间 - 时间记忆库实现充分的目标交互和高效的并行处理,从而提高视频对象分割的效果。
- 通过调控交叉注意力记忆实现高效视频对象分割
提出了一种名为 MAVOS 的基于变压器的方法,通过引入优化和动态的长期调制交叉注意力 (MCA) 存储器,对长视频进行模型化学处理,同时在不需要频繁扩展内存的情况下实现跨帧的时间平滑。在多个基准测试中,包括 LVOS、Long-Time - 动态查询调节的视频目标分割
通过将对象特征汇总成为动态查询,并将其作为动态滤波器用于掩膜预测,我们提出了一种名为 QMVOS 的查询调节方法,从而为模型提供高级描述和对象级感知。通过查询间的注意力实现高效有效的多对象交互,这一方法对基于内存的半监督视频对象分割方法带来 - SpVOS:具有三重稀疏卷积的高效视频目标分割
本文提出了一种名为 SpVOS 的 VOS 稀疏基线方法,通过开发一种新颖的三元稀疏卷积来减少整体 VOS 框架的计算成本,并结合稀疏训练策略对 VOS 分割性能和计算成本进行平衡,实验结果表明 SpVOS 在资源受限场景下具有应用潜力。
- 高效记忆继续学习的长视频目标分割
提出两种方法以减少在线视频对象分割方法的内存需求,同时提高建模准确性和推广性,并实验结果表明这些方法可以提高在线视频对象分割模型的性能,增强其在长视频数据集上的鲁棒性。
- ICCVXMem++:从少量标注帧生成生产级别的视频分割
我们提出了一种新颖的半监督视频对象分割 (SSVOS) 模型 XMem++,通过引入永久记忆模块来改进现有的基于记忆的模型,在生产环境中持续地从高度复杂的场景中提取复杂对象仍然是一项费时费力的任务。我们的方法能够以较少的帧标注数量提取高度一 - TrickVOS:视频目标分割的一袋技巧
为了提高半监督视频对象分割的性能,本文提出了一种名为 TrickVOS 的通用方法,包含结构感知的混合损失函数、简单的解码器预训练机制以及可降低模型预测误差的便宜跟踪器等级三个方面,并使用一种轻量级网络模型进行实验,取得了与现有最先进方法相 - IJCAI在全景野外场景下的视频对象分割
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg - 视频物体分割的鲁棒高效记忆网络
该研究提出 REMN,一种稳健高效的记忆网络,用于半监督视频物体分割,通过引入本地注意机制和动态记忆库,解决了非局部匹配和高时间冗余的问题,实验表明 REMN 在 DAVIS 2017 和 YouTube-VOS 2018 上均取得最新的成 - CVPRMobileVOS:实时视频目标分割,对比学习与知识蒸馏相遇
本文提出一种基于知识蒸馏与像素对比学习相结合的理论框架并使用有限内存的小型空时存储网络,实现在资源受限的设备上进行半监督视频对象分割任务,与最先进的模型相比取得竞争性的 J&F 评估结果,但计算成本只有最先进模型的一小部分,在三星 Gala - ECCV全局光谱滤波记忆网络用于视频物体分割
本研究提出了 Global Spectral Filter Memory 网络以提高半监督视频对象分割的内框交互,并通过 Low(High)Frequency Module 有效地学习长期空间依赖性,显着优于基准方法并达到了最先进的表现。
- 视频对象分割的像素级双射匹配
该研究提出了一种双射匹配机制,可用于解决像素级特征匹配中可能出现的关键问题,同时还提出了一种面向历史掩模的嵌入模块,以提高现有掩模传播方法的效果。
- 基于 Transformer 的视频目标分割算法
本研究提出了基于 AOT 的嵌入式学习方法,通过将多个对象相互关联在同一高维度嵌入空间中,实现了同时处理多个对象的匹配和分割解码,具有更高的效率,并且在多个基准测试中均优于已有的 State-of-the-art 算法,是第三次大规模 VO - TransVOS: 带有 Transformer 的视频目标分割
本文提出了一种新的基于 transformer 的框架 TransVOS,利用视觉 transformer 来充分利用和建模时间和空间关系,在保持效果的同时减少了模型参数和复杂性,从而实现了半监督视频对象分割中的最新性能。
- 基于记忆的视频目标分割中的位置和目标一致性学习
该论文提出了一种名为 LCM 的基于记忆机制的视频目标分割方法,该方法采用了位置一致性和目标一致性的学习框架来解决现有方法在视频帧序列中没有利用目标级别知识和序贯性,导致准确性下降问题,实验结果表明该方法在 DAVIS 和 Youtube- - CVPR使用重用门函数学习半监督视频物体分割中的动态网络
本篇文章提出了一种基于动态神经网络的方法,利用时间信息快速识别变化最小帧并跳过繁重的掩码生成步骤,从而提高了半监督视频对象分割的推断速度,同时不会过多降低精度。
- 具有自适应特征库和不确定区域细化的视频目标分割
本文介绍了一种半监督视频对象分割算法。算法利用匹配特征的方法来实现对象分割,并通过引入特征库的动态更新方法来增强算法的效果。并且,本文还设计了信心值损失函数和细粒度分割模块,以提高算法在不确定区域的分割准确性。在公共基准测试上,本算法优于现 - ECCV多尺度前后景整合的协作视频目标分割
本文提出了一种前景背景整合的协作视频目标分割方法,将特征嵌入分成前景物体区域和其对应的背景区域,通过像素级匹配和实例级注意力机制在参考和预测序列之间生效,提高分割结果。此外,本文还提出了多尺度匹配结构和 Atrous 匹配策略的改进方法 C - ECCV基于核函数的记忆网络用于视频对象分割
提出了一种基于核化记忆网络的半监督视频目标分割算法,采用了找茬策略来处理遮挡和边界提取等问题,并在标准基准测试上超过了目前最先进的算法 5% 的性能表现。
- CVPR视频对象分割的传导式方法
本篇论文提出了一种基于标签传播和特征相似性的转导方法,用于半监督视频目标分割,其中考虑了长期目标出现特征。该方法无需额外的模块、数据集或架构设计,使用普通的 ResNet50 作为主干,在 DAVIS 2017 评估集上达到了 72.3 的