加速需求:一种修剪变换器的方法
本研究提出一种新的框架,通过 OPO(只训练一次)将 DNN 网络压缩成性能出色、FLOPs 很小的较瘦的架构, OTO 将两个关键因素组合在一起:(1)将 DNN 网络参数分成零不变组,使我们能够修剪零组而不影响输出;(2)为了促进零组,我们进一步制定了一个结构稀疏最优化问题,并提出了一个新的优化算法 ——HSPG(半空间随机投影梯度),用于解决它。
Jul, 2021
本文综述了技术优化变压器网络推断的技术,包括知识蒸馏,修剪,量化,神经架构搜索和轻量级网络设计,以及硬件级优化技术和设计新型硬件加速器,可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。
Jul, 2023
我们呈现了 Open Pre-trained Transformers (OPT),一个解码器型的预训练 transformers 套件,范围从 125M 到 175B 个参数,这些我们希望与感兴趣的研究人员完全和负责任地分享。 我们展示了 OPT-175B 与 GPT-3 相媲美,同时仅需要 1/7 的碳足迹进行开发。
May, 2022
本文提出一种基于结构化稀疏方法的快速 Transformer 模型剪枝框架,无需重新训练即可保持高准确度,在 GLUE 和 SQuAD 数据集中分别实现了 2 倍的 FLOPs 减少和 1.56 倍的推理速度提升,在单个 GPU 上不到 3 分钟即可完成模型修剪。
Mar, 2022
本文研究了基于 Transformer 的图片分类模型的优化,通过两个 Transformer 模型的改进,使得模型深度增加能够带来更好的性能表现,并在 Imagenet 数据集上取得了 86.5% 的 top-1 准确率,创造了当前最高成绩。同时,我们还通过重新评估标签,打破了 Imagenet-V2 数据集的最高准确率记录,并开放了源代码和训练好的模型。
Mar, 2021
本文通过结构剪枝方法在大规模视觉和语言模型中降低推理成本,提出了一种基于组合优化的框架,利用层间重构目标和低秩更新的本地组合优化算法,显著改善了先前方法在视觉模型和语言模型上的性能。
Mar, 2024
我们提出了 Auto-Train-Once(ATO)算法,旨在自动减少深度神经网络的计算和存储成本,通过训练目标模型同时利用控制器网络作为架构生成器来指导目标模型权重的学习,并利用新颖的随机梯度算法增强模型训练和控制器网络训练之间的协调,从而提高剪枝性能。在本文中,我们提供了全面的收敛分析和大量实验,结果表明我们的方法在各种模型架构(包括 ResNet18、ResNet34、ResNet50、ResNet56 和 MobileNetv2)以及标准基准数据集(CIFAR-10、CIFAR-100 和 ImageNet)上实现了最先进的性能。
Mar, 2024
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023
本文提出了一种新的学习优化方法,其中采用神经网络表示优化器更新步骤的计算,优化器的参数通过训练一组优化任务来学习,以实现高效的最小化。创新之处在于,它是一种新型的神经网络架构,“Optimus”,对学习到的优化器进行了改进,启发自经典的 BFGS 算法。
Dec, 2022