面向自监督对应学习的区域感知内外视频重构
该研究介绍了一种叫做 Inter-Intra Video Contrastive Learning (IIVCL) 的方法,利用来自全局空间的最近邻视频作为额外的正对。该方法提高了正关键图的多样性,并引入了一个更松散的相似性概念,扩展到了视频甚至跨类边界。在一系列视频任务上,性能得到了提高。
Mar, 2023
本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法,通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用,在区域级别和像素级别同时建模视频帧之间的转换,从而在视觉对应任务中实现了优异的表现。
Sep, 2019
本文提出了一种基于自我监督学习的视频特征表示方法,在传统自我监督学习的基础上通过引入内部负样本来扩展负样本集,从而使单个视频更加充分地表达时空信息,并能够有效地提高视频检索和识别的性能。
Aug, 2020
本文提出了一种空间 - 时间自我监督学习方法,通过对无标注图像的对比学习来提取空间特征,并通过重构学习利用无标注视频中的时间线索增强特征,以在视频分析任务上取得比现有自我监督方法更好的表现,并进行了削减研究以验证两步设计以及蒸馏损失的有效性。
Sep, 2022
本文介绍了一种多模态学习方法,称为 Dual Optimal Transport Label Assignment(DOTLA)框架,用于学习无标签跨模态数据集中的多模态特征。同时,本文还介绍了一种基于跨模态邻域一致性的标签完善和正规化模块,以提高模型的准确性。实验结果表明该方法优于现有的各种无监督和监督方法。
May, 2023
基于对比学习的 Video Inpainting LOcalization (ViLocal) 方案使用 3D Uniformer 编码器学习了有效的时空取证特征,通过吸引 / 排斥正 / 负原始和伪造像素对捕捉到了图像修复不一致,然后通过专门的两阶段训练策略利用轻量级卷积解码器生成了一个像素级修复定位地图,实验证明 ViLocal 优于现有技术。
Jun, 2024
本文提出了一种适用于匹配视频中对应点的特征嵌入的自监督学习方法,其中使用自然的时空一致性训练指针模型,并通过引入信息瓶颈和循环模型等方式来解决跟踪器漂移等挑战,最终取得了在视频分割和关键点跟踪上的最佳效果。
May, 2019
通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架,本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。
Dec, 2019
本研究提出了一种自监督学习方法,从未标记的视频中学习可靠的视觉对应关系。 所提出的方法将对应关系形式化为在联合空间 - 时间图中寻找路径的过程,并在此基础上利用循环一致性来识别图像中的动态对象,从而实现了中心 - 邻居对之间的潜在关联学习。实验结果表明,该方法在视频对象传播、部分传播和姿态关键点跟踪等各种视觉任务上均表现出色,并且优于某些针对特定任务设计的全监督算法。
Sep, 2021