将视觉 Transformer 扩展至 220 亿参数
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸(参数数量),并进一步推进和改良了比例定律,以推断出计算优化的模型形状,成功地将其实现在视觉变换器中,并证明了我们的形状优化的视觉变换器(SoViT)在多个任务中都能取得出色的效果,挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。
May, 2023
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
Apr, 2024
本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。
Nov, 2021
本研究介绍了 LEMON,一个大规模图像描述生成模型,探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。
Nov, 2021
利用分布式序列并行化技术以及混合序列、流水线和张量并行化策略,使得 Vision Transformers 在处理大序列长度和训练 10B 参数模型时能够取得更好的性能表现,从而提高气候模型的精度。
Apr, 2024
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。
Mar, 2021
Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。
Apr, 2021
TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022