自我监督视觉变换器是不完善标签的高效分割学习器

AAAIJan, 2024

自我监督视觉变换器是不完善标签的高效分割学习器

Self-Supervised Vision Transformers Are Efficient Segmentation Learners for Imperfect Labels

Seungho Lee, Seoungyoon Kang, Hyunjung Shim

TL;DR通过冻结自监督视觉变换器（SSVT）主干并训练轻量级分割头，我们展示了一种成本效益的语义分割方法。通过利用不完美的标签，我们的方法提高了对标签缺陷的鲁棒性，对于各种注释类型，包括涂鸦、点层和图像层标签，在现有方法上展现了显著的性能改进。这项研究突出了自监督视觉变换器在处理不完美标签方面的有效性，为语义分割提供了实用且高效的解决方案，同时降低了注释成本。通过大量实验，我们确认我们的方法在所有类型的不完美标签上优于基准模型，特别在基于零样本视觉语言模型的标签下，相对于基准模型展现了 11.5% 的性能提升。

Abstract

This study demonstrates a cost-effective approach to semantic segmentation using self-supervised vision transformers (SSVT). By freezing the SSVT backbone and training a lightweight segmentation head, our approac

self-supervised vision transformers semantic segmentation imperfect labels annotation costs performance gain

发现论文，激发创造

自监督 Vision Transformer 的蒸馏用于弱监督少样本分类与分割

我们提出了一种利用自监督预训练的视觉 Transformer（ViT）来解决弱监督少样本图像分类和分割的方法，通过自注意力机制，利用自监督 ViT 的标记表示，通过独立的任务头预测分类和分割结果。实验结果表明，我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割，只使用图像级别标签，并且在少量或无像素级标签的情况下表现出显著的性能提升。

Jul, 2023

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

自监督视频 Transformer

本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图，实现了视频内 actions 的时空不变性，并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集（Kinetics-400，UCF-101，HMDB-51 和 SSv2）上表现出色，并能够在小批量的情况下更快地收敛。

Dec, 2021

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

SSVT：基于眼底图像的自监督视觉 Transformer 用于眼疾诊断

基于无监督学习方法 'SSVT'，本研究建立了一个可以自动分析无标签眼底图像的方法，通过六个公共数据集和北京同仁医院收集的两个数据集，准确诊断了四种主要眼病，评估准确率高达 97.0%，展示了该无监督学习方法的有效性和在生物医学资源匮乏地区改善全球眼健康的强大应用潜力。

Apr, 2024

高效自监督视觉 Transformer 模型用于表示学习

本文研究了发展高效的自监督视觉变换器（EsViT）的两种技术，第一，我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性，但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二，我们提出了新的预训练任务区域匹配，允许模型捕捉细粒度区域依赖性，从而显着提高了学习到的视觉表示的质量。我们的结果表明，结合这两种技术，EsViT 在 ImageNet 线性探针评估中达到 81.3％的 top-1，超过以前的艺术水平，吞吐量大约高一个数量级。在转移到下游线性分类任务时，EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取：该 URL。

Jun, 2021

自训练方式提升语义分割

本文提出了一种半监督学习的方法，即自我训练范式，通过用标注数据训练教师模型并在大量未标注数据上生成伪标签，以较少的监督实现像素级准确模型，并在 Cityscapes，CamVid 和 KITTI 数据集上取得了最优表现，同时，在具有挑战性的跨域泛化任务上表现更佳，最后，为了减轻大量伪标签带来的计算负担，提出了一种快速训练计划来加速分割模型的训练。

Apr, 2020

本地遮盖与逐步冻结：为自监督学习打造高效的视觉变换器

本文介绍了一种创新的自监督学习方法，将局部遮罩图像建模与渐进层冻结相结合，以增强 Vision Transformers（ViTs）中初始层训练的效率和速度。通过在训练过程中在战略点冻结特定层，我们降低了计算需求，同时保持或提高了学习能力。我们的方法采用了一种新颖的多尺度重构过程，促进了初始层的高效学习以及跨尺度的语义理解。结果表明，与模型准确性的最小影响（top-1 准确度下降了 0.6%），我们的方法实现了训练时间的大幅减少（约 12.5%）。我们的方法分别达到了 82.6% 的 top-1 准确度和 96.2% 的 top-5 准确度，凸显了它在计算资源和时间至关重要的场景中的潜力。该工作标志着计算机视觉领域自监督学习的进步。我们的方法的实现可在我们项目的 GitHub 存储库上找到：github.com/utkutpcgl/ViTFreeze。

Dec, 2023

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

探索自我监督视觉变换器用于深伪检测：一种比较分析

本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络（ConvNets）在检测各种类型的深度伪造方面的有效性，重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调，在利用自监督学习和变换器进行深度伪造检测时，我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性，且同时需要较少的计算资源。

May, 2024