Feb, 2023

可逆视觉Transformer

TL;DR本文介绍一种内存高效的Reversible Vision Transformer架构设计,将模型深度与GPU内存需求解耦,能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试,表明可实现模型复杂度、参数和准确性基本相同的情况下,内存占用减少了多达15.5倍,Reversible Vision Transformers是硬件资源有限培训方案的高效支撑,为更深的模型提供了更快的吞吐量。