Swin Transformer V2:扩大容量和分辨率
本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers(ViT-22B)的方法,并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力,并提供了部分实现的关键步骤。
Feb, 2023
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
本研究介绍了 LEMON,一个大规模图像描述生成模型,探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。
Nov, 2021
通过数据分析、选择强基线模型、迁移学习、数据增强和测试时间增强等综合方法,我们在 ICCV/CVPPA2023 深度养分缺乏挑战赛中获得第二名,以高分辨率图像分类为主要研究内容。
Sep, 2023
本文介绍了一种针对视频领域的区域局部性 Transformer 架构,通过使用 Swin Transformer 设计来实现,同时利用预训练模型的威力,取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。
Jun, 2021
高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入,通过学习窗口内的标记间的局部交互和窗口间的全局交互,模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入(如旋转嵌入)时表现出了显著的有效性,训练速度是全分辨率网络的 4 倍,而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中,发现使用 2 个窗口的简单设置效果最佳,因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中,达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。
Oct, 2023
通过调整数据规模、模型大小和训练时间,提高预训练的准确性可以有利于大多数下游任务的表现,但是当上游准确度提高时,下游任务的表现会饱和,并且与上游和下游任务的性能呈非线性关系,因此需要对下游性能建立一个模型以反映这种饱和现象。
Oct, 2021
通过多尺度较小模型的预训练与冻结,我们展示了其在多个图像尺度上能够超越较大的视觉模型,并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。
Mar, 2024
如果同时扩大数据规模、模型大小和图像分辨率,通过自监督学习可以实现人类级的视觉目标识别能力,而且使用基于掩码自编码器的高效自监督学习算法,可以在低成本的学术预算下进行扩展实验。
Aug, 2023