科学图像前沿上视觉 Transformer 的序列长度缩放

Apr, 2024

科学图像前沿上视觉 Transformer 的序列长度缩放

Sequence Length Scaling in Vision Transformers for Scientific Images on Frontier

Aristeidis Tsaris, Chengming Zhang, Xiao Wang, Junqi Yin, Siyan Liu...

TL;DR利用分布式序列并行化技术以及混合序列、流水线和张量并行化策略，使得 Vision Transformers 在处理大序列长度和训练 10B 参数模型时能够取得更好的性能表现，从而提高气候模型的精度。

Abstract

vision transformers (ViTs) are pivotal for foundational models in scientific imagery, including Earth science applications, due to their capability to process large sequence lengths. While transformers for text has inspired →

vision transformers sequence parallelism scaling sequence lengths model sharding climate modeling accuracy

发现论文，激发创造

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

将视觉 Transformer 扩展至 220 亿参数

本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers（ViT-22B）的方法，并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力，并提供了部分实现的关键步骤。

Feb, 2023

DeepSpeed Ulysses：极长序列 Transformer 模型训练的系统优化

DeepSpeed-Ulysses 是一种新颖、可移植和有效的方法，用于实现高效且可扩展的长序列大型语言模型的训练，包括在序列维度上划分输入数据和使用高效的全互联通信进行注意力计算。实验评估结果显示，DeepSpeed-Ulysses 在 4 倍较长的序列长度下比现有方法提供了 2.5 倍的训练速度。

Sep, 2023

AiluRus：一个用于密集预测的可扩展 ViT 框架

通过自适应分辨率和聚类算法，提出一种用于处理密集预测任务中长序列的视觉 Transformer 方法，实现对低分辨率和高分辨率区域的区分，从而加速模型并获得有希望的表现。

Nov, 2023

ViT 训练规模的变化：计算优化模型设计的缩放定律

该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸（参数数量），并进一步推进和改良了比例定律，以推断出计算优化的模型形状，成功地将其实现在视觉变换器中，并证明了我们的形状优化的视觉变换器（SoViT）在多个任务中都能取得出色的效果，挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。

May, 2023

序列器：深度长短期记忆网络用于图像分类

本研究提出一种名为 Sequencer 的新型卷积神经网络架构，使用 LSTM 来建模长距离依赖关系，不同于改进自然语言处理的自注意力的 ViT，通过多项实验表明其具有很高的性能表现，同时在双重分辨率下具有良好的适应性。

May, 2022

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer，可以提高处理高分辨率图像的能力，主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现，经过全面的实验表明在多项计算机视觉任务中，新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。

Mar, 2021

无需训练的自适应视觉 Transformer

提出了一种名为 As-ViT 的自动缩放框架，用于设计和扩展 Vision Transformers (ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需 12 小时的训练。

Feb, 2022