DeViT：分解视觉 Transformer 用于边缘设备的协同推理

Sep, 2023

DeViT：分解视觉 Transformer 用于边缘设备的协同推理

DeViT: Decomposing Vision Transformers for Collaborative Inference in Edge Devices

Guanyu Xu, Zhiwei Hao, Yong Luo, Han Hu, Jianping An...

TL;DR最近的研究已经取得了视觉转换器 (ViT) 的巨大成功，在多个计算机视觉基准测试中取得了最先进的性能。然而，ViT 模型受到庞大的参数量和高计算成本的限制，导致在资源受限的边缘设备上难以部署。为了解决这个问题，我们提出了一种探索转换器结构的可拆分性，将大型 ViT 分解成多个小型模型，在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理，并与大型 ViTs 相比保持相当的准确性。为此，我们首先提出了一种名为 DeViT 的协同推理框架，通过分解大型 ViTs 来促进边缘部署。随后，我们设计了一种基于知识蒸馏的分解和集成算法，称为 DEKD，通过开发特征匹配模块来处理异构模型，以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理，并且优于现有的轻量级 ViTs，在效率和准确性之间取得了良好的平衡。例如，在 GPU 服务器上使用 CIFAR-100，与大型 ViT，ViT-L/16 相比，我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT，MobileViT-S，同时运行速度提升了 1.72 倍，边缘设备的能源消耗降低了 55.28%。

Abstract

Recent years have witnessed the great success of vision transformer (ViT), which has achieved state-of-the-art performance on multiple computer vision benchmarks. However, ViT models suffer from vast amounts of parameters and high computation cost, leading to difficult deployment on re

vision transformer collaborative inference edge deployment knowledge distillation efficiency and accuracy

发现论文，激发创造

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

COMCAT：注重效率的基于注意力机制的视觉模型压缩和定制化

本文提出了一种高效的 ViT 压缩解决方案，该方法基于多头注意力层的新见解开发，可用于获得紧凑的基于注意力的视觉模型，并在图像分类任务中取得比最先进的剪枝方法更高的准确性。

May, 2023

压缩视觉 Transformer 用于低资源视觉学习

通过使用模型压缩技术，本研究旨在实现对视觉转换器在资源受限设备上的快速推理，以在边缘环境中将其部署在无人机上，并以最小的准确性损失，以便在监视、环境监测等领域开辟新的可能性。

Sep, 2023

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少 Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入 ViTs 而不影响其性能。

Feb, 2024

TinyViT：小型视觉 Transformer 的快速预训练蒸馏

TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer，通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制，能够在减少参数数量的情况下依然具有较高的准确性，并且能够在多种下游任务中得到很好的转移效果。

Jul, 2022

Vision Transformers 的统一剪枝框架

该论文提出了一种名为 UP-ViTs 的统一结构修剪框架，可在保持模型一致性的同时，压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明，UP-ViTs 在 Object Detection 等任务中取得了不俗的性能，并在 ImageNet 上超越了传统的 ViTs 模型。

Nov, 2021

Bi-ViT: 推动视觉 Transformer 量化极限

介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

May, 2023

HeatViT：面向视觉 Transformer 的硬件高效自适应 Token 剪枝

本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT，以在嵌入式 FPGA 上实现高效而准确的 ViT 加速，通过显著重复利用现有硬件组件来实现标记选择器，使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块，使模型在硬件上不仅提高了准确性和推理延迟，而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。

Nov, 2022