具有几何变换感知架构的非物体中心图像的自监督学习

Apr, 2023

具有几何变换感知架构的非物体中心图像的自监督学习

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture

Taeho Kim

TL;DR提出了一种几何变换敏感的模型结构，用于自我监督图像预训练，可在非物体中心图像上提供更好的性能表现，可应用于图像分类、语义分割、检测和实例分割等多项任务。

Abstract

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images

self-supervised geometric transformation image pretraining invariance-based sensitive architecture

发现论文，激发创造

无监督学习视觉表示的对比方法再探

本文将需要自我学习来改进现有模型的数据集偏差性进行了深入研究，并成功地在不同类型数据集上改善了模型，同时介绍了一种具有多尺度裁剪、强数据增强和近邻策略的改进自监督学习方法，并通过 MoCo 模型在语义分割和视频实例分割任务中实现了优秀的效果。

Jun, 2021

自监督学习中使用变换器和自蒸馏的旋转不变三维点集特征

这篇论文提出了一种自我监督学习框架，用于从大量无标签的三维点集中学习准确且旋转不变的三维特征，通过分解输入的三维点集成多个全局尺度的区域，使用自注意机制优化这些区域，并将它们聚合成每个三维点集的表达性旋转不变特征。该框架使用自我蒸馏方法生成伪标签进行训练，同时结合多裁剪和切割混合的数据增强技术来增加训练数据的多样性。通过全面的评估，实验证明目前针对有监督学习设计的旋转不变深度神经网络结构在自我监督学习场景下不一定能够学习到准确的三维形状特征，而我们提出的算法学习到的旋转不变的三维点集特征比现有算法更准确。

Aug, 2023

自监督视觉表征学习的传递不变性

文章介绍了一种利用自监督学习的图形结构来学习具有不变性特征的视觉表示，并应用该表示在不同的识别任务中取得了显著性能提升。

Aug, 2017

面向视觉的三维目标检测的几何感知预训练

提出了一种名为 GAPretrain 的几何意识预训练框架，通过使用几何丰富的模态和来自 LiDAR 点云的结构提示，实现跨不同模态之间的属性转移，从而解决多镜头自动驾驶中图像和视角不一致的问题，实现了很好的效果。

Apr, 2023

深度变换不变聚类

本研究基于深度学习，提出了新的图像聚类方法，通过学习图像变换并在图像空间直接进行聚类，并可以轻松处理聚类中的不变性，实现了对聚类中心和聚类分配的解释性。研究表明，该方法在标准图像聚类基准测试中具有极高的竞争性和前景性。

Jun, 2020

翻译困境：现代神经网络在小型逼真图像变换中仍然面临困难

通过简单的方法，我们实现了对最先进模型进行 1 像素平移的错误率降低到不到 5%，同时只有 1% 的分类准确率下降。此方法还可以轻松调整以处理循环位移，而无需任何进一步的训练。

Apr, 2024

通过概率内省进行几何稳定特征的自监督学习

本文介绍了自监督学习在减少人工标注数据用于训练深度神经网络方面的应用，并指出了该方法对于几何定向任务，如语义匹配和部件检测的可扩展性，同时展示了自监督预训练网络在学习语义对象部件方面相较于其它预训练选项所需较少的监督，并且这种预训练对于语义对象匹配非常优秀。

Apr, 2018

基于图形的等度不变表示学习

本文介绍了一种新颖的基于图的变换不变性网络（TIGraNet），该网络可以学习基于图的特征，并对几何变换具有不变性，通过图谱卷积和动态图池化层替代经典的卷积和池化层，能够有效提高对于数据变异的鲁棒性和在有限的训练集上保持持续性能。

Mar, 2017

超越本地像素统计的自监督特征学习

基于对特定变换的区分，我们提出了一种自监督特征学习的新原则，指出所学特征的泛化能力取决于较大的图像邻域大小和其能够描述的更全局的图像统计信息，这可以 better represent objects' shape and configuration 以及它们的上下文，最终将泛化到新任务，如对象分类和检测。根据这个标准，我们引入了一种新的图像变换，称为 limited context inpainting (LCI)，它仅在小矩形像素边界（有限的上下文）的条件下填充图像，而由于边界信息有限，因此涂鸦者可以学习匹配局部像素统计信息，但不太可能匹配图像的全局统计信息。我们声称可以使用同样的原则来验证变换性能，例如图像旋转和扭曲，确实，我们实验表明，学习区分 LCI、图像扭曲和旋转等变换，产生了状态良好的泛化功能，可应用于多个数据集，如 Pascal VOC、STL-10、CelebA 和 ImageNet。值得注意的是，我们训练的特征在 Places 数据集上的表现与通过带 ImageNet 标签的监督学习训练的特征相当。

Apr, 2020

自监督等变学习用于定向关键点检测

本文提出了一种使用旋转卷积神经网络的自监督学习框架，通过生成的图像对和直方图来训练密集方向对准损失，从而学习检测具有鲁棒性的定向关键点，并在图像匹配和相机姿态估计基准测试中表现出优异的性能。

Apr, 2022