Swin Transformers 自监督学习

May, 2021

Self-Supervised Learning with Swin Transformers

Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai...

TL;DR本文介绍了一种名为 MoBY 的自监督学习方法，使用 Vision Transformers 作为基础架构，并进行了在图像分类、目标检测和语义分割等任务中的实验验证。实验结果表明 MoBY 相对于其他基于 DeiT 的方法有更好的性能，有望推动更多 Transformer 架构的自监督学习评估。

Abstract

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this work, we present a self-supervised learning approach called moby, with →

self-supervised learning vision transformers moby object detection semantic segmentation

发现论文，激发创造

Swin Transformer 自监督预训练用于三维医学图像分析

本文介绍了一种自我监督学习框架，使用适合医学图像分析的代理任务，成功地在各种人体器官的公开可用的 CT 图像上预训练模型，并在医学分割基准数据集上进行了微调，实现了最先进的匹配结果。

Nov, 2021

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

Swin Transformer: 使用偏移窗口的分层视觉 Transformer

本文提出了一种新的视觉 Transformer，称为 Swin Transformer，它在计算机视觉领域中作为通用骨干具有很强的能力，包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的，并且模型和代码是公开的。

Mar, 2021

Swin Transformer 的自监督跨模态预训练

通过增强 Swin Transformer，我们的模型 SwinFUSE (Swin 多模态融合的无监督增强) 在医学影像领域从不同的影像模态中学习，提升了下游性能，并展现出了对领域变化的适应性以及显著的泛化能力。

May, 2024

B-Cos 对齐的 Transformer 学习可解释的人类特征

通过引入一种新的架构，即 B-cos Vision Transformer，以提高可解释性，本文证明了 B-cos Swin Transformer 在医学相关任务中超越了 Vision Transformers，并在两个公共数据集上提高了 F1 分数高达 4.7%。

Jan, 2024

基于自监督预训练 Vision Transformer 的单目机器人导航

使用自监督方法预训练的 Vision Transformer，成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型，其推理分辨率可以调整以平衡预测粒度和实时感知约束，并用作简单而强大的视觉伺服代理的骨干，用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。

Mar, 2022

高效低计算自监督视觉模型的简单配方

本文介绍了一种简单的自监督蒸馏技术，可以培训高性能低计算的神经网络，RoB 通过从大型自监督教师模型到小型学生模型的知识蒸馏来实现，适用于许多架构。实验结果表明 RoB 在 ImageNet 数据集上表现良好，且在五个下游转移任务上的表现与监督蒸馏的结果相当或更好。

Jan, 2023

多视点 Swin Transformer 的乳房 X 光分类

本文提出了一种创新的基于 Transformer 的多视图网络，用于解决乳房 X 线照片分类中的挑战。我们的方法通过引入一种新颖的基于移动窗口的动态注意力块，促进多视图信息的有效集成，并在空间特征映射级别上促进该信息在视图之间的一致传递。此外，我们使用 CBIS-DDSM 和 Vin-Dr Mammo 数据集对基于 Transformer 的模型在不同设置下的性能和有效性进行了全面的比较分析。我们的代码公开可用于此 https URL。

Feb, 2024