BitNet：面向大型语言模型的 1 比特 Transformer 的扩展

Oct, 2023

BitNet：面向大型语言模型的 1 比特 Transformer 的扩展

BitNet: Scaling 1-bit Transformers for Large Language Models

Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang...

TL;DRBitNet 是一种可扩展且稳定的 1 位 Transformer 架构，用于大型语言模型，通过引入 BitLinear 作为 nn.Linear 层的替代方案，BitNet 可以从零开始训练 1 位权重，实验结果表明，与最先进的 8 位量化方法和 FP16 Transformer 相比，BitNet 在语言建模方面能够达到有竞争力的性能，同时大幅减少内存占用和能源消耗，此外，BitNet 表现出与全精度 Transformer 类似的扩展规律，说明它具有在保持高效和性能优势的同时，有效扩展到更大的语言模型的潜能。

Abstract

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce bitnet, a scalable and st

large language models bitnet 1-bit transformer architecture memory footprint energy consumption

发现论文，激发创造

二值化神经机器翻译

本文提出了一种新的二值化技术，基于一位权重和激活函数的 Transformer 应用于机器翻译，实验证明其可以达到与浮点型 Transformer 相同的质量，同时大小只有其 16 倍，并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外，作者在生产规模的翻译数据集上进行了一项标尺研究，表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。

Feb, 2023

1 位 LLMs 的时代：所有大型语言模型都在 1.58 比特

1-bit Large Language Models (LLMs), such as BitNet b1.58, with ternary weights, define a new scaling law and offer high-performance and cost-effective solutions for training new generations of LLMs while enabling the design of hardware optimized for 1-bit LLMs.

Feb, 2024

BitNet: 比特正则化深度神经网络

BitNet 是一种基于 Minimum Description Length (MDL) 原则，通过动态限制网络参数的可取范围和值，优化训练神经网络的方法，在 MNIST 和 CIFAR-10 数据集上通过优化实数值翻译和缩放因子以及任意精度整型参数，BitNet 比等效的非正则化模型更快地收敛生成了质量更高且内存消耗更小的模型。

Aug, 2017

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

基于变形金刚 (Block-wise) 的模型比特压缩

该研究提出了一种名为 BBCT 的方法，用于对 Transformer-based models 进行块状位压缩，以减少其对计算的需求和内存的占用。经过在 BERT 上的测试，BBCT 可以在保持精度的前提下显著减少模型的计算和内存占用。

Mar, 2023

二元和三元自然语言生成

采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型，其在摘要和机器翻译的下游任务中达到了较高的得分，同时比全精度模型高效 16 倍以上。

Jun, 2023

变形金刚模型全面实现 8 位整型推断

通过对 Transformer 模型进行整合，得到了一个 8 位整型 Inference 算法，其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明，与基准架构相比，该算法的性能基本一致且内存占用减少了近 4 倍。

Sep, 2020

BinaryBERT: 推进 BERT 量化极限

本文提出了 BinaryBERT，一种采用权重二值化的方法将 BERT 压缩到极限。论文发现，二进制 BERT 比三进制的更难以直接进行训练，因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明，BinaryBERT 模型只有轻微的性能损失，同时体积缩小了 24 倍，达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。

Dec, 2020