基于块选择性重编程的视觉 Transformer 设备端训练

Mar, 2024

基于块选择性重编程的视觉 Transformer 设备端训练

Block Selective Reprogramming for On-device Training of Vision Transformers

Sreetama Sarkar, Souvik Kundu, Kai Zheng, Peter A. Beerel

TL;DR通过研究现有的内置训练方法的局限性，本文提出了基于块选择性重编程（BSR）的方法，在部分冻结层的基础上，根据自注意力得分从预训练模型中选择性地丢弃令牌，有效地减少训练内存和计算成本，同时保持相似的准确性，适用于多任务学习场景。

Abstract

The ubiquity of vision transformers (ViTs) for various edge applications, including personalized learning, has created the demand for on-device fine-tuning. However, training with the limited memory and computation power of edge devices remains a significant challenge. In particular, t

vision transformers on-device fine-tuning memory requirement block selective reprogramming mixture-of-expert models

发现论文，激发创造

Bi-ViT: 推动视觉 Transformer 量化极限

介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

May, 2023

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少 Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入 ViTs 而不影响其性能。

Feb, 2024

LPViT：低功耗半结构化剪枝用于视觉 Transformer

该论文介绍了一种新的块结构剪枝方法，用于解决视觉转换器的资源密集问题，通过均衡的权衡准确性和硬件加速，使其在保持高性能的同时减少资源需求。实验结果表明，该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能，并在精度保持和功耗节省之间实现了显著的平衡。

Jul, 2024

在视觉 Transformer 中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将 Vision transformers 稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

二值视觉 Transformer：高效和准确度的探索

本论文提出了一种名为 BinaryViT 的方法，通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题，使得其在计算和存储资源受限的设备上也能有更好的运行表现。

May, 2023

HeatViT：面向视觉 Transformer 的硬件高效自适应 Token 剪枝

本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT，以在嵌入式 FPGA 上实现高效而准确的 ViT 加速，通过显著重复利用现有硬件组件来实现标记选择器，使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块，使模型在硬件上不仅提高了准确性和推理延迟，而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。

Nov, 2022

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

压缩视觉 Transformer 用于低资源视觉学习

通过使用模型压缩技术，本研究旨在实现对视觉转换器在资源受限设备上的快速推理，以在边缘环境中将其部署在无人机上，并以最小的准确性损失，以便在监视、环境监测等领域开辟新的可能性。

Sep, 2023