BiBERT：准确的全二值化 BERT

Mar, 2022

BiBERT: Accurate Fully Binarized BERT

Haotong Qin, Yifu Ding, Mingyuan Zhang, Qinghua Yan, Aishan Liu...

TL;DR本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Abstract

The large pre-trained bert has achieved remarkable performance on Natural Language Processing (nlp) tasks but is also computation and memory expensive. As one of the powerful →

bert binarization nlp compression bibert

发现论文，激发创造

BinaryBERT: 推进 BERT 量化极限

本文提出了 BinaryBERT，一种采用权重二值化的方法将 BERT 压缩到极限。论文发现，二进制 BERT 比三进制的更难以直接进行训练，因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明，BinaryBERT 模型只有轻微的性能损失，同时体积缩小了 24 倍，达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。

Dec, 2020

BEBERT：高效稳健的二进制集成 BERT

本文提出了一种二进制集合 BERT（BEBERT）模型，采用集成技术来弥补其与全精度 BERT 相比的精度差距，同时保持计算效率，实验证明，BEBERT 在精度和鲁棒性方面明显优于现有的二进制 BERT 模型，训练时间更快，模型尺寸和 FLOPs 分别比全精度基准低 13 倍和 15 倍，同时也优于其他压缩 BERT 的精度高达 6.7%。

Oct, 2022

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

二值化神经机器翻译

本文提出了一种新的二值化技术，基于一位权重和激活函数的 Transformer 应用于机器翻译，实验证明其可以达到与浮点型 Transformer 相同的质量，同时大小只有其 16 倍，并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外，作者在生产规模的翻译数据集上进行了一项标尺研究，表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。

Feb, 2023

TernaryBERT: 知识蒸馏感知的超低比特 BERT

本文提出 TernaryBERT，在 fine-tuned BERT 模型中采用了三元权重化，通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度，并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降，实验证明 TernaryBERT 不仅优于其他 BERT 量化方法，而且在 14.9 倍的情况下与全精度模型性能相当。

Sep, 2020

BiViT: 二值化视觉转换器的极度压缩

本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。

Nov, 2022

面向分布的信息保留的精确二值神经网络

本文介绍了一种名为 DIR-Net 的神经网络二值化方法，通过改进内部传播和引入外部表示来保留神经网络信息；采用信息最大化二值化（IMB）、分布敏感二段估计器（DTE）和表示对齐二值化感知蒸馏（RBD）等三项技术，该方法在 ResNet、VGG、EfficientNet、DARTS 和 MobileNet 等主流紧凑体系结构下实验表现优异，可在实际资源受限设备上实现存储节省和加速优化。

Sep, 2021

基于二值化神经网络的端到端文本分类

本文提出了一种用于意图分类任务的端到端二值化神经网络架构，包括对输入和分类器的二值化。实验结果表明，该架构在三个数据集上实现了具有可比性的结果，并且使用的内存和训练时间相对较少，可以适用于受限的设备。

Oct, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

BiLLM: 提高 LLM 后训练量化的极限

BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程，显示了令人满意的时间效率。

Feb, 2024