- CVPR通过放松的共同命运和视觉分组从视频中引导物体性质
本研究探讨了从无标签视频中学习物体分割的方法:首先从视觉共同命运与物体出现统计上进行特征学习,再基于视频内部和跨视频的外观分组进行细化,应用 ResNet 和卷积头只需无监督学习即可实现视频目标分割,相对于 DAVIS16 / STv2 / - CVPR通过时空对应学习提升视频物体分割
本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法,该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。
- CLVOS23: 用于连续学习的长视频对象分割数据集
本文提出了一个基于正则化的持续学习方法用于解决在线视频对象分割问题(VOS),取得了很好的效果,同时建立了一个基准公共数据集 CLVOS23。这是首次将 VOS 作为一个持续学习问题来定义和解决。
- CVPRDropMAE: 带有空间注意力丢失的遮蔽自编码器用于跟踪任务
该研究旨在研究在视频上使用掩蔽自动编码器(MAE)进行预训练,从而实现针对视觉对象跟踪(VOT)和视频对象分割(VOS)等基于匹配的下游任务。所提出的 DropMAE 是一种强大的高效的时间匹配学习器,在与 ImageNet-based M - CVPR双镜头视频物体分割
本文提出了一种新的视频对象分割训练范式 - 两张标记帧的视频对象分割,通过在训练期间生成伪标签并将其与已标记数据结合优化模型,我们仅需要稀疏注释就可以训练出令人满意的模型。通过使用 YouTube-VOS 和 DAVIS 基准测试的仅仅 7 - CVPR自监督视频分割的统一掩模嵌入和对应关系学习
通过开发一个统一的框架,其中同时建模跨帧密集对应以进行本地区分特征学习并嵌入对象级上下文进行目标掩码解码,从而使得能够直接从未标记的视频中学习执行基于掩码的连续分割,而不是依赖于基于像素的关联的廉价 “复制” 标签的非直接方法。
- 视频目标分割中的分层传播特征解耦
研究论文提出了一种新的分层传播方法 DeAOT,它通过在两个独立分支中处理目标通用嵌入和目标特定嵌入,同时采用门控传播模块来构建分层传播,从而显著提高了视频物体分割的准确性和效率。
- SWEM: 基于加权期望 - 最大化算法的实时视频目标分割
本论文提出了一种基于 SWEM 网络的半监督视频目标分割方法,通过采用权重期望最大化算法来减少内帧和帧间相似特征的冗余,以及使用自适应权重来增强硬样本的区分度,同时保持固定数量的模板特征在内存中,从而保证了系统的稳定推理复杂性和高效性,实验 - CVPR逐帧视频目标分割
本文提出了一种基于片段的推理方案,用于半监督视频分割,得到了最先进的表现,包括准确性和效率收益,通过夹杂在一段时间内进行两次推断和显式改进内部特性的片段操作,以及在片段内部推广匹配机制等模块的协同作用。
- ECCVBATMAN: 双边注意力变换器用于运动 - 外观邻域空间的视频对象分割
在这篇文章中,作者们提出了一个基于 Bilateral Attention Transformer 的新型半监督 Video Object Segmentation 算法,该算法通过光流校准模块来捕捉视频中的物体运动,从而降低物体边界噪音, - MM用于压缩视频物体指代分割的多注意力网络
本文提出了在压缩视频数据流上进行指代视频目标分割任务的多关注机制网络和基于查询的跨模态 Transformer 模块,实现了使用单核心直接生成最终分割掩模的复杂后处理过程的目标,结果表明其有效性。
- ECCV视频目标分割中对抗背景干扰
本文提出了三种新策略来抑制背景干扰器的出现,并使用一种新的半监督视频物体分割技术,使得所提出的模型在公共基准数据集上具有与现有技术方法可比拟的性能表现,同时还能够实现实时性能。
- ECCVXMem:基于 Atkinson-Shiffrin 记忆模型的长时视频对象分割
XMem 使用 Atkinson-Shiffrin 模型的多个独立特征存储器来解决长视频对象分割中的内存资源限制问题,通过记忆强化算法实现主动储存工作内存元素到长期内存中,使得预测效果突破先前最优结果并在短视频数据集上与当今最优算法表现持平 - CVPRYouTube-VOS 2022 大赛第 5 名解决方案:视频目标分割
本文提出了一个简单而有效的解决方案,通过分析数据集分布、引入公共静态和视频分割数据集增补数据集,改进了三种不同特性的网络结构并训练多个网络去学习视频中物体的不同特性,通过简单的整合和精细的后处理确保精准的视频对象分割。在 Youtube-V - CVPR深度时空网络编码的更深入探究:量化静态与动态信息
本研究提出了一种新方法,以量化任何时空模型的静态和动态偏差,进而分析行为识别和视频对象分割两个任务中大多数研究所使用的一些时空模型对静态和动态信息的偏好,发现大多数模型都偏向于静态信息。
- CVPR视频目标分割的循环动态嵌入
该论文提出了一种 Recurrent Dynamic Embedding (RDE) 技术,利用 Spatio-temporal Aggregation Module (SAM) 来生成和更新一个大小固定的内存库,解决了长视频中硬件无法承受 - MM面向密集无监督视频分割的 In-N-Out 生成学习
本文介绍了一种新的基于生成学习的视觉变形不变性技术,提高视频对象分割的准确性和稳健性。实验结果表明,该方法在两个数据集上都优于现有的最先进方法。
- CVPR使用语言查询进行视频对象分割
该论文提出了一种基于 Transformer 的简单统一框架 ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信 - 交互式 Transformer 连体网络用于视频目标分割
本文提出了一种基于双模型网络和交互式变换器的半监督视频对象分割方法,能够有效地从历史帧向当前帧传播上下文信息,同时使用特征交互模块,提高了目标表示的性能,并通过三种基准实验验证了其优于现有方法的性能.
- CVPR用于视觉目标跟踪的判别性单次分割网络
提出了一种具有判别性的单次拍摄分割跟踪器 D3S2,通过应用两种具有互补几何属性的目标模型,一种对广泛变换不变,包括非刚体变形,另一种假设刚性对象可同时实现稳健的在线目标分割。该跟踪器在不进行数据集微调的情况下,只训练分割作为主要输出,便比