基于变形金刚 (Block-wise) 的模型比特压缩

Mar, 2023

基于变形金刚 (Block-wise) 的模型比特压缩

Block-wise Bit-Compression of Transformer-based Models

Gaochen Dong, Wei Chen

TL;DR该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Abstract

With the popularity of the recent transformer-based models represented by bert, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive

transformer-based models bbct block-wise bit-compression glue bert

发现论文，激发创造

无需重新训练的基于 Transformer 的模型块压缩

提出使用 BCT 框架对 transformer 进行分块压缩的方法，以降低其巨大的计算资源和内存开销，通过在多个 GLUE 数据集上评估得出，在大多数任务中，BCT 可以实现不到 0.90％的准确性下降。

Apr, 2023

基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

本文总结了压缩预训练 Transformer 模型的研究进展，尤其关注流行的 BERT 模型的最佳压缩实践和方法，提出未来发展的方向，以达到轻量、高准确性和通用性的自然语言处理模型。

Feb, 2020

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

预训练 Transformer 的极致压缩简单高效实现

本文通过回顾相关学者先前的工作，系统地探讨了几个关键参数的影响。在此基础上，提出了一种名为 XTC 的简单而有效的压缩流程，它通过极端量化和层减少使模型尺寸降低了 50 倍，并在 GLUE 任务上实现了最新的最佳结果。

Jun, 2022

BERT 与 GPT 在金融工程中的比较

该研究对多个 Transformer 模型进行基准测试，展示了这些模型如何从新闻事件中判断情感。这个信号随后可用于下游建模和商品交易的信号识别。我们发现，在这一任务中，微调的 BERT 模型优于微调或原版的 GPT 模型。研究还提出了 CopBERT 模型，它在域特定的 BERT 训练模型（如 FinBERT）的性能上表现更好。综上所述，BERT 模型可能不会成为下一个 XGboost，但对于需要融合可解释性和准确性的金融工程任务来说，它代表了一个有趣的选择。

Apr, 2024

基于分块的自注意力机制实现长文本理解

BlockBERT 为一个高效的 BERT 模型，引入了稀疏块结构，以更好的建模长距离依赖关系，在语言模型预训练和基准问答数据集上进行了实验。与 RoBERTa 模型相比，BlockBERT 可以节省大约 27.8% 的推理时间，并具有可比甚至更好的预测准确性。

Nov, 2019

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

BitNet：面向大型语言模型的 1 比特 Transformer 的扩展

BitNet 是一种可扩展且稳定的 1 位 Transformer 架构，用于大型语言模型，通过引入 BitLinear 作为 nn.Linear 层的替代方案，BitNet 可以从零开始训练 1 位权重，实验结果表明，与最先进的 8 位量化方法和 FP16 Transformer 相比，BitNet 在语言建模方面能够达到有竞争力的性能，同时大幅减少内存占用和能源消耗，此外，BitNet 表现出与全精度 Transformer 类似的扩展规律，说明它具有在保持高效和性能优势的同时，有效扩展到更大的语言模型的潜能。

Oct, 2023