- 零样本视频对象分割的分层图模式理解
本研究提出了一种新的层次化图形神经网络建构(HGPU)架构,用于零样本视频对象分割(ZS-VOS),该网络通过利用动态线索(即光流)增强目标帧邻居的高阶表示,并通过分层解析和理解变换的多模态背景来实现更准确和稳健的结果。
- M3T:视频目标分割和跟踪的多尺度记忆匹配
通过提出一种新颖的,DET-R 风格的编码器 - 解码器架构,我们克服了长视频中有关小对象的数据特性所带来的挑战,并在两个复杂数据集上实现了最先进的性能。
- 视频目标分割中注释的内容与方法学习
EVA-VOS 是一种视频目标分割的人机协作注释框架,通过引入代理模型进行逐帧帧选择和注释类型预测,可以实现高准确度且比传统视频注释方法快 3.5 倍的对象掩模生成与注释时间降低。
- 将物体重新融入视频物体分割
Cutie 是一个视频目标分割网络,具有对象级记忆读取,通过适应一小组对象查询与自底向上的像素特征进行迭代交互,结合前景 - 背景屏蔽注意力,可准确分离前景对象的语义,从而在 MOSE 数据集上显著提高 J&F 值。
- CoralVOS:珊瑚视频分割数据集和基准评估
通过进行密集珊瑚视频分割并提供 CoralVOS 数据集,我们能够比现有的珊瑚礁分析算法生成更可靠和深入的珊瑚分析,进一步促进珊瑚礁研究社区。
- 对具备严格区域发现功能的视频对象分割的对抗攻击
本论文研究视频对象分割中的敌对例子对模型的影响,通过对易混淆区域的攻击,通过生成更强敌对干扰从而降低现有视频对象分割模型的性能。
- ICCV指代视频对象分割的时态采集与分发
视频对象分割通过自然语言表达对视频序列中的参照物进行分割,提出了同时维护全局参照标记和一系列对象查询的方法,以实现对对象在帧级别的定位和分割,进而利用新颖的时间采集 - 分布机制来捕捉对象动态并进行时空交叉模态推理,实验结果表明,该方法在所 - 运动分析的鲁棒视觉跟踪
通过分析运动模式使用固有的张量结构进行片段分割和目标追踪,该算法在 LaSOT、AVisT、OTB100 和 GOT-10k 等基准测试中取得了有竞争力的结果,并能够实现实时操作。
- ICCV融合框和掩码:统一视觉跟踪和分割的多目标框架
本文提出了一种多对象掩膜 - 包围盒综合框架(MITS),用于统一的跟踪和分割。该框架通过引入统一的标识模块和精确的多对象包围盒预测器,从初始化到解码实现同时处理所有目标对象的编码、传播和解码,并在 VOT 和 VOS 基准测试中取得了最先 - 视频目标分割的特征、对应关系和压缩记忆的联合建模
提出了一种名为 JointFormer 的统一 VOS 框架,能够同时提取特征并传播目标信息,以进行全面的信息传播和辨别特征学习,通过在线更新机制,实现了对长期目标信息的整合,在多个基准测试上取得了较大幅度的优于现有算法的最新性能。
- LOCATE:基于流引导图割和自主引导自训练的自监督目标发现
利用动态信息和外观信息,我们提出了一种自我监督的目标发现方法,该方法能够生成高质量的目标分割遮罩,并在多个基准测试中取得与现有方法相媲美甚至超越的结果。
- ICCV简化框架下可扩展的视频对象分割
本研究提出了一种可扩展的简化 VOS(SimVOS)框架,通过利用单个转换器主干进行联合特征提取和匹配,从而实现了针对准确遮罩预测的更好的目标感知特征学习。实验证明,SimVOS 在流行的视频对象分割基准测试中取得了最先进的结果,即 DAV - 视频目标分割的层次化时空 Transformer
本文提出了一种名为 HST 的半监督视频对象分割框架,使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征,并使用内存读取操作产生层次特征以精确重构对象蒙版,该框架在处理复杂场景下具有 - CVPRFODVid: 视频中的流引导物体发现
我们在视频中对象的分割问题上提出了一种新的管道(FODVid),它基于使用流引导图割和时间一致性的思想来引导分割输出,通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型,我们的方法在无监督的视频对象分割中取得了与现有顶级方 - 2023 年浙江大学 ReLER 提交的 EPIC-KITCHEN 挑战:TREK-150 单目标追踪
通过 Associating Objects with Transformers (AOT) 框架,将 bounding boxes 转换为 masks,通过多个 feature scales 的转换实现视频对象跟踪和分割,并在 EPIC- - 2023 EPIC-KITCHEN 挑战赛中的浙江大学 ReLER 提交:半监督视频目标分割
本研究介绍了 MSDeAOT,一种在多个特征尺度上运用 transformers 的 AOT 变体,利用分层的 GPM,以 stride 为 16 的特征尺度高效地从前一帧传播物体掩码至当前帧,同时在具有 stride 为 8 的更精细的特 - RefSAM: 为引用视频目标分割而高效地调整任意分割模型
此篇论文介绍了 RefSAM 模型,该模型利用来自不同视觉语言模态和时间戳的多视角信息,首次探索 SAM 在 RVOS 领域的潜力。通过在参考表达中应用轻量级跨模态 MLP 来增强跨模态学习,并采用参数高效的调整策略,成功对齐并融合了语言和 - 融合多种模态信息的统一视频物体分割时序变换器
本文提出了 MUTR,通过统一框架和两种策略,实现了同时支持文本和音频引用的视频对象分割,实现了视频内部各帧的时序交互,从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J&F 性能。
- 无约束视频对象分割中的强大嵌入关联多元记忆
提出一种面对来自各种场景不受限制的视频的半自动视频对象分割的模块化框架,集成了嵌入式技术,可避免冗余数据的积累,实现视频对象分割的高效率,适用于 Long-time Video dataset 等多样化视频资源。
- 个性化一次性分段模型
本文提出了一种称为 PerSAM 的、无需训练的个性化方法,该方法首先通过位置先验定位目标概念,然后通过三种技术 - 目标引导注意力、目标语义提示和级联后处理在其他图像或视频中对其进行分割,有效地适应 SAM 的私人使用。此外,我们还提出了