超越本地像素统计的自监督特征学习

CVPRApr, 2020

超越本地像素统计的自监督特征学习

Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics

Simon Jenni, Hailin Jin, Paolo Favaro

TL;DR基于对特定变换的区分，我们提出了一种自监督特征学习的新原则，指出所学特征的泛化能力取决于较大的图像邻域大小和其能够描述的更全局的图像统计信息，这可以 better represent objects' shape and configuration 以及它们的上下文，最终将泛化到新任务，如对象分类和检测。根据这个标准，我们引入了一种新的图像变换，称为 limited context inpainting (LCI)，它仅在小矩形像素边界（有限的上下文）的条件下填充图像，而由于边界信息有限，因此涂鸦者可以学习匹配局部像素统计信息，但不太可能匹配图像的全局统计信息。我们声称可以使用同样的原则来验证变换性能，例如图像旋转和扭曲，确实，我们实验表明，学习区分 LCI、图像扭曲和旋转等变换，产生了状态良好的泛化功能，可应用于多个数据集，如 Pascal VOC、STL-10、CelebA 和 ImageNet。值得注意的是，我们训练的特征在 Places 数据集上的表现与通过带 ImageNet 标签的监督学习训练的特征相当。

Abstract

We introduce a novel principle for self-supervised feature learning based on the discrimination of specific transformations of an image. We argue that the generalization capability of learned features depends on what image neighborhood size is sufficient to discriminate different image

self-supervised feature learning image transformations limited context inpainting global image statistics object classification

发现论文，激发创造

自监督表示学习的定位加速

通过数据驱动的前景显著性估计和复制粘贴来生成图像视图，实现对背景不变性的学习，从而训练代表性忽略背景内容并专注于前景的对比学习模型，并实现了在 ImageNet 分类和 PASCAL VOC、MSCOCO 目标检测上的显著性能提升。

Apr, 2020

VICRegL：本地视觉特征的自监督学习

本文提出了一种名为 VICRegL 的新方法，该方法可以同时学习好的全局和局部特征，从而在检测和分割任务上取得出色的性能，同时保持分类任务上的良好性能。

Oct, 2022

本地 - 全局自监督视觉表示学习

本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法，通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法，借助视觉变换器（ViT）作为骨干网络，从而生成图像级别和补丁级别的表示。结果显示，我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。

Oct, 2023

学习图像中个体物体的操纵

本文提出一种训练生成模型的方法，通过强制要求上下文信息分离和知觉循环一致性的结合，让潜在变量只会影响到某个物体的局部区域，从而实现对象为中心的操作，而且不需要对象级别的注释。

Apr, 2020

基于上下文的自监督学习的改进

本研究采用了一种基于 patch 排列上下文学习的自监督学习方法，着重解决了光学畸变、空间倾斜和中等特征忽视等问题，在不同数据集上进行多项自监督测试，结果表明，在 PASCAL VOC 2007 的分类和检测、PASCAL VOC 2012 的分割以及 ImageNet 和 CSAIL Places 数据集上的线性测试中都取得了顶尖成绩，在迁移学习分类测试中，超过基准方法的改进幅度为 4.0 到 7.1 个百分点，同时演示了不同标准网络架构的结果，以证明其推广性和灵活性。

Nov, 2017

使用局部变换学习不变表示

本文提出了一个新颖的具有转换不变性的特征学习框架，将线性转换纳入特征学习算法中，可应用于无监督学习方法，如自动编码器或稀疏编码，证明在 MNIST 变化，CIFAR-10 和 STL-10 等图像分类基准数据集上具有优越的分类性能并在 TIMIT 数据集上实现了最先进的电话分类任务的结果。

Jun, 2012

上下文编码器：通过修补学习特征

本研究提出了一种无监督的视觉特征学习方法，称为 Context Encoders，利用卷积神经网络通过上下文预测像素来对图像进行重构，该方法通过重构加对抗性损失双重学习获得更加清晰的结果，这种学习到的特征在分类、检测和分割等任务中表现出了很好的效果。

Apr, 2016

对比学习下的视频修复定位

基于对比学习的 Video Inpainting LOcalization (ViLocal) 方案使用 3D Uniformer 编码器学习了有效的时空取证特征，通过吸引 / 排斥正 / 负原始和伪造像素对捕捉到了图像修复不一致，然后通过专门的两阶段训练策略利用轻量级卷积解码器生成了一个像素级修复定位地图，实验证明 ViLocal 优于现有技术。

Jun, 2024

弱监督自洽学习的通用图像篡改检测

通过弱监督学习方式，本文提出了一种基于自一致性学习的弱监督图像篡改检测方法，该方法通过学习多源一致性和跨补丁一致性来改进图像篡改检测的泛化能力和篡改区域的定位效果，实现了与全监督方法相媲美的性能表现。

Sep, 2023

弱监督定位的图像间通信

本文提出了利用特征点之间的相似性来弥补像素级反馈不足的方法，引入随机特征一致性学习和多目标全局一致性学习作为约束，使得同一类别中物体特征一致并逐渐逼近类别中心，在 ILSVRC 和 CUB-200-2011 数据集上获得了 45.17% 的最小化定位误差率，并超越了当前最先进的方法。

Aug, 2020