压缩视觉 Transformer 用于低资源视觉学习

Sep, 2023

压缩视觉 Transformer 用于低资源视觉学习

Compressing Vision Transformers for Low-Resource Visual Learning

Eric Youn, Sai Mitheran J, Sanjana Prabhu, Siyuan Chen

TL;DR通过使用模型压缩技术，本研究旨在实现对视觉转换器在资源受限设备上的快速推理，以在边缘环境中将其部署在无人机上，并以最小的准确性损失，以便在监视、环境监测等领域开辟新的可能性。

Abstract

vision transformer (ViT) and its variants have swept through visual learning leaderboards and offer state-of-the-art accuracy in tasks such as image classification, object detection, and semantic segmentation by attending to different parts of the visual input and capturing long-range

vision transformer model compression edge deployment uav inference latency

发现论文，激发创造

视觉 Transformer 模型压缩与加速综述

本研究通过评估四种主要的模型压缩技术：量化、低秩近似、知识蒸馏和剪枝，解决了视觉 Transformer 在计算和内存需求方面的问题，并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效，证明了这些方法在模型精度和计算效率之间取得了平衡，为边缘计算设备的广泛应用铺平了道路。

Apr, 2024

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

TinyViT：小型视觉 Transformer 的快速预训练蒸馏

TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer，通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制，能够在减少参数数量的情况下依然具有较高的准确性，并且能够在多种下游任务中得到很好的转移效果。

Jul, 2022

COMCAT：注重效率的基于注意力机制的视觉模型压缩和定制化

本文提出了一种高效的 ViT 压缩解决方案，该方法基于多头注意力层的新见解开发，可用于获得紧凑的基于注意力的视觉模型，并在图像分类任务中取得比最先进的剪枝方法更高的准确性。

May, 2023

移动应用的视觉 Transformer：简要概述

本文研究提出了一些专门为移动设备设计的 ViT 架构，分析了移动应用场景下 ViT 网络所面临的挑战，旨在为未来的研究方向提供基础，并选择最佳的 ViT 视觉架构以适用于移动设备。

May, 2023

Vision Transformers 的统一剪枝框架

该论文提出了一种名为 UP-ViTs 的统一结构修剪框架，可在保持模型一致性的同时，压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明，UP-ViTs 在 Object Detection 等任务中取得了不俗的性能，并在 ImageNet 上超越了传统的 ViTs 模型。

Nov, 2021

DeViT：分解视觉 Transformer 用于边缘设备的协同推理

最近的研究已经取得了视觉转换器 (ViT) 的巨大成功，在多个计算机视觉基准测试中取得了最先进的性能。然而，ViT 模型受到庞大的参数量和高计算成本的限制，导致在资源受限的边缘设备上难以部署。为了解决这个问题，我们提出了一种探索转换器结构的可拆分性，将大型 ViT 分解成多个小型模型，在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理，并与大型 ViTs 相比保持相当的准确性。为此，我们首先提出了一种名为 DeViT 的协同推理框架，通过分解大型 ViTs 来促进边缘部署。随后，我们设计了一种基于知识蒸馏的分解和集成算法，称为 DEKD，通过开发特征匹配模块来处理异构模型，以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理，并且优于现有的轻量级 ViTs，在效率和准确性之间取得了良好的平衡。例如，在 GPU 服务器上使用 CIFAR-100，与大型 ViT，ViT-L/16 相比，我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT，MobileViT-S，同时运行速度提升了 1.72 倍，边缘设备的能源消耗降低了 55.28%。

Sep, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023