Apr, 2024

动态与静态:面向自主训练的视频对象分割的混合视觉对应

TL;DR本文介绍了一种名为 HVC 的混合静态动态视觉对应框架,用于自监督视频对象分割。HVC 从静态图像中提取伪动态信号,实现了高效且可扩展的 VOS 模型。该方法利用极简的全卷积架构在图像裁剪视图中捕捉静态动态视觉对应关系,并通过统一的自监督方法学习静态 - 动态特征相似性的视觉表示,从而实现联合静态和动态一致性表示的学习。HVC 仅需要一次训练会话使用静态图像数据,显著减少内存消耗(约 16GB)和训练时间(约 2 小时),并在多个自监督 VOS 基准和附加视频标签传播任务中实现了最新的性能。