Apr, 2024

科学图像前沿上视觉 Transformer 的序列长度缩放

TL;DR利用分布式序列并行化技术以及混合序列、流水线和张量并行化策略,使得 Vision Transformers 在处理大序列长度和训练 10B 参数模型时能够取得更好的性能表现,从而提高气候模型的精度。