CVPRFeb, 2023

可逆视觉 Transformer

TL;DR本文介绍一种内存高效的 Reversible Vision Transformer 架构设计,将模型深度与 GPU 内存需求解耦,能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试,表明可实现模型复杂度、参数和准确性基本相同的情况下,内存占用减少了多达 15.5 倍,Reversible Vision Transformers 是硬件资源有限培训方案的高效支撑,为更深的模型提供了更快的吞吐量。