BiBERT:准确的全二值化 BERT
本文提出了 BinaryBERT,一种采用权重二值化的方法将 BERT 压缩到极限。论文发现,二进制 BERT 比三进制的更难以直接进行训练,因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明,BinaryBERT 模型只有轻微的性能损失,同时体积缩小了 24 倍,达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。
Dec, 2020
本文提出了一种二进制集合 BERT(BEBERT)模型,采用集成技术来弥补其与全精度 BERT 相比的精度差距,同时保持计算效率,实验证明,BEBERT 在精度和鲁棒性方面明显优于现有的二进制 BERT 模型,训练时间更快,模型尺寸和 FLOPs 分别比全精度基准低 13 倍和 15 倍,同时也优于其他压缩 BERT 的精度高达 6.7%。
Oct, 2022
本文提出一种改进的二元转换器方法,通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法,实现了在实际精度水平下的完全二元化转换模型,并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。
May, 2022
本文提出了一种新的二值化技术,基于一位权重和激活函数的 Transformer 应用于机器翻译,实验证明其可以达到与浮点型 Transformer 相同的质量,同时大小只有其 16 倍,并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外,作者在生产规模的翻译数据集上进行了一项标尺研究,表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。
Feb, 2023
本文提出 TernaryBERT,在 fine-tuned BERT 模型中采用了三元权重化,通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度,并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降,实验证明 TernaryBERT 不仅优于其他 BERT 量化方法,而且在 14.9 倍的情况下与全精度模型性能相当。
Sep, 2020
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
本文介绍了一种名为 DIR-Net 的神经网络二值化方法,通过改进内部传播和引入外部表示来保留神经网络信息;采用信息最大化二值化(IMB)、分布敏感二段估计器(DTE)和表示对齐二值化感知蒸馏(RBD)等三项技术,该方法在 ResNet、VGG、EfficientNet、DARTS 和 MobileNet 等主流紧凑体系结构下实验表现优异,可在实际资源受限设备上实现存储节省和加速优化。
Sep, 2021
本文提出了一种用于意图分类任务的端到端二值化神经网络架构,包括对输入和分类器的二值化。实验结果表明,该架构在三个数据集上实现了具有可比性的结果,并且使用的内存和训练时间相对较少,可以适用于受限的设备。
Oct, 2020
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程,显示了令人满意的时间效率。
Feb, 2024