无需重新训练的基于 Transformer 的模型块压缩

Apr, 2023

无需重新训练的基于 Transformer 的模型块压缩

Blockwise Compression of Transformer-based Models without Retraining

Gaochen Dong, Wei Chen

TL;DR提出使用 BCT 框架对 transformer 进行分块压缩的方法，以降低其巨大的计算资源和内存开销，通过在多个 GLUE 数据集上评估得出，在大多数任务中，BCT 可以实现不到 0.90％的准确性下降。

Abstract

transformer-based models, represented by GPT-3, ChatGPT, and GPT-4, have recently attracted increasing interest, research enthusiasm, and business demand. However, their massive computation resources and huge memory footprint are inevitable challenges. To tackle this issue, we propose

transformer-based models blockwise compression deployment thresholds glue datasets accuracy

发现论文，激发创造

基于变形金刚 (Block-wise) 的模型比特压缩

该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Mar, 2023

基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

本文总结了压缩预训练 Transformer 模型的研究进展，尤其关注流行的 BERT 模型的最佳压缩实践和方法，提出未来发展的方向，以达到轻量、高准确性和通用性的自然语言处理模型。

Feb, 2020

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

预训练 Transformer 的极致压缩简单高效实现

本文通过回顾相关学者先前的工作，系统地探讨了几个关键参数的影响。在此基础上，提出了一种名为 XTC 的简单而有效的压缩流程，它通过极端量化和层减少使模型尺寸降低了 50 倍，并在 GLUE 任务上实现了最新的最佳结果。

Jun, 2022

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

Theseus 的 BERT：通过渐进式模块替换压缩 BERT

本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率，使得我们的方法在原始和紧凑模型之间带来了更深入的交互，同时不需要引入任何额外的损失函数，在 GLUE 基准测试中，我们的方法优于现有的知识蒸馏方法，展示了一种新的模型压缩视角。

Feb, 2020

朝着更小、更快的只解码 Transformer：架构变体及其影响

本研究引入了三种变体（ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT）来修改解码器专用的 Transformer 架构，这些变体在代码生成任务中取得了可比较的性能，同时具有模型尺寸较小和训练时间更快的优势。

Apr, 2024

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020