加速需求：一种修剪变换器的方法

ICLRMar, 2024

加速需求：一种修剪变换器的方法

The Need for Speed: Pruning Transformers with One Recipe

Samir Khaki, Konstantinos N. Plataniotis

TL;DR一种用于提高预训练变换器体系结构效率的 OPTIN 框架，通过中间特征蒸馏捕捉模型参数的长程依赖（称为轨迹），在不需要重新训练的情况下在自然语言、图像分类、迁移学习和语义分割任务方面产生最先进的结果。同时，在满足 FLOP 限制的情况下，OPTIN 框架将网络进行压缩，保持竞争性准确性性能和提高吞吐量。

Abstract

We introduce the $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks ($\textbf{optin}$) framework as a tool to increase the efficiency of →

optin pre-trained transformer architectures efficiency feature distillation compression

发现论文，激发创造

仅需一次训练：一种一次性神经网络训练和剪枝框架

本研究提出一种新的框架，通过 OPO（只训练一次）将 DNN 网络压缩成性能出色、FLOPs 很小的较瘦的架构， OTO 将两个关键因素组合在一起：（1）将 DNN 网络参数分成零不变组，使我们能够修剪零组而不影响输出；（2）为了促进零组，我们进一步制定了一个结构稀疏最优化问题，并提出了一个新的优化算法 ——HSPG（半空间随机投影梯度），用于解决它。

Jul, 2021

优化 Transformer 推理技术综述

本文综述了技术优化变压器网络推断的技术，包括知识蒸馏，修剪，量化，神经架构搜索和轻量级网络设计，以及硬件级优化技术和设计新型硬件加速器，可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。

Jul, 2023

OPT：开放预训练 Transformer 语言模型

我们呈现了 Open Pre-trained Transformers (OPT)，一个解码器型的预训练 transformers 套件，范围从 125M 到 175B 个参数，这些我们希望与感兴趣的研究人员完全和负责任地分享。我们展示了 OPT-175B 与 GPT-3 相媲美，同时仅需要 1/7 的碳足迹进行开发。

May, 2022

Transformer 模型的快速后训练剪枝框架

本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架，无需重新训练即可保持高准确度，在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升，在单个 GPU 上不到 3 分钟即可完成模型修剪。

Mar, 2022

图像 Transformer 的深入研究

本文研究了基于 Transformer 的图片分类模型的优化，通过两个 Transformer 模型的改进，使得模型深度增加能够带来更好的性能表现，并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率，创造了当前最高成绩。同时，我们还通过重新评估标签，打破了 Imagenet-V2 数据集的最高准确率记录，并开放了源代码和训练好的模型。

Mar, 2021

OSSCAR：一个用于图像和语言模型的单次结构化剪枝方法与组合优化

本文通过结构剪枝方法在大规模视觉和语言模型中降低推理成本，提出了一种基于组合优化的框架，利用层间重构目标和低秩更新的本地组合优化算法，显著改善了先前方法在视觉模型和语言模型上的性能。

Mar, 2024

Auto-Train-Once：来自零的控制器网络引导的自动网络剪枝

我们提出了 Auto-Train-Once（ATO）算法，旨在自动减少深度神经网络的计算和存储成本，通过训练目标模型同时利用控制器网络作为架构生成器来指导目标模型权重的学习，并利用新颖的随机梯度算法增强模型训练和控制器网络训练之间的协调，从而提高剪枝性能。在本文中，我们提供了全面的收敛分析和大量实验，结果表明我们的方法在各种模型架构（包括 ResNet18、ResNet34、ResNet50、ResNet56 和 MobileNetv2）以及标准基准数据集（CIFAR-10、CIFAR-100 和 ImageNet）上实现了最先进的性能。

Mar, 2024

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

基于 Transformer 的学习优化

本文提出了一种新的学习优化方法，其中采用神经网络表示优化器更新步骤的计算，优化器的参数通过训练一组优化任务来学习，以实现高效的最小化。创新之处在于，它是一种新型的神经网络架构，“Optimus”，对学习到的优化器进行了改进，启发自经典的 BFGS 算法。

Dec, 2022

随机融合优化运输的 Transformer

基于最优输运的层对齐方法，能够融合不同大小的变压器网络，提供了一种压缩变压器的新方法，并在图像分类和自然语言建模任务中表现出优越性能。

Oct, 2023