Sep, 2023

DeViT:分解视觉 Transformer 用于边缘设备的协同推理

TL;DR最近的研究已经取得了视觉转换器 (ViT) 的巨大成功,在多个计算机视觉基准测试中取得了最先进的性能。然而,ViT 模型受到庞大的参数量和高计算成本的限制,导致在资源受限的边缘设备上难以部署。为了解决这个问题,我们提出了一种探索转换器结构的可拆分性,将大型 ViT 分解成多个小型模型,在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理,并与大型 ViTs 相比保持相当的准确性。为此,我们首先提出了一种名为 DeViT 的协同推理框架,通过分解大型 ViTs 来促进边缘部署。随后,我们设计了一种基于知识蒸馏的分解和集成算法,称为 DEKD,通过开发特征匹配模块来处理异构模型,以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理,并且优于现有的轻量级 ViTs,在效率和准确性之间取得了良好的平衡。例如,在 GPU 服务器上使用 CIFAR-100,与大型 ViT,ViT-L/16 相比,我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT,MobileViT-S,同时运行速度提升了 1.72 倍,边缘设备的能源消耗降低了 55.28%。