科学图像前沿上视觉 Transformer 的序列长度缩放
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在 Wikipedia enwik8 数据集上,我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率,且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列,实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。
Nov, 2023
本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers(ViT-22B)的方法,并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力,并提供了部分实现的关键步骤。
Feb, 2023
DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法,用于实现高效且可扩展的长序列大型语言模型的训练,包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示,DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。
Sep, 2023
通过自适应分辨率和聚类算法,提出一种用于处理密集预测任务中长序列的视觉 Transformer 方法,实现对低分辨率和高分辨率区域的区分,从而加速模型并获得有希望的表现。
Nov, 2023
该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸(参数数量),并进一步推进和改良了比例定律,以推断出计算优化的模型形状,成功地将其实现在视觉变换器中,并证明了我们的形状优化的视觉变换器(SoViT)在多个任务中都能取得出色的效果,挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。
May, 2023
本研究提出一种名为 Sequencer 的新型卷积神经网络架构,使用 LSTM 来建模长距离依赖关系,不同于改进自然语言处理的自注意力的 ViT,通过多项实验表明其具有很高的性能表现,同时在双重分辨率下具有良好的适应性。
May, 2022
本研究提出了 Hierarchical Visual Transformer (HVT) 模型,通过逐步分池视觉标记以缩短序列长度降低计算成本,从而改进了图像分类任务的性能,并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。
Mar, 2021
本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。
Mar, 2021
提出了一种名为 As-ViT 的自动缩放框架,用于设计和扩展 Vision Transformers (ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需 12 小时的训练。
Feb, 2022