二值化神经机器翻译

Feb, 2023

Binarized Neural Machine Translation

Yichi Zhang, Ankush Garg, Yuan Cao, Łukasz Lew, Behrooz Ghorbani...

TL;DR本文提出了一种新的二值化技术，基于一位权重和激活函数的 Transformer 应用于机器翻译，实验证明其可以达到与浮点型 Transformer 相同的质量，同时大小只有其 16 倍，并通过额外的 LayerNorms 和残差连接改进了二值化的质量。此外，作者在生产规模的翻译数据集上进行了一项标尺研究，表明一位权重 Transformer 在域内和域外环境下均具有可扩展性和良好的泛化效果。

Abstract

The rapid scaling of language models is motivating research using low-bitwidth quantization. In this work, we propose a novel binarization technique for transformers applied to →

language models binarization technique transformers machine translation one-bit weights

发现论文，激发创造

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

BitNet：面向大型语言模型的 1 比特 Transformer 的扩展

BitNet 是一种可扩展且稳定的 1 位 Transformer 架构，用于大型语言模型，通过引入 BitLinear 作为 nn.Linear 层的替代方案，BitNet 可以从零开始训练 1 位权重，实验结果表明，与最先进的 8 位量化方法和 FP16 Transformer 相比，BitNet 在语言建模方面能够达到有竞争力的性能，同时大幅减少内存占用和能源消耗，此外，BitNet 表现出与全精度 Transformer 类似的扩展规律，说明它具有在保持高效和性能优势的同时，有效扩展到更大的语言模型的潜能。

Oct, 2023

面向设备的神经机器翻译的极低比特 Transformer 量化

本研究提出一种混合精度量化策略，将 Transformer 权重表示为极低位数（例如小于 3 位），该压缩策略使得在设备上实现高效的神经机器翻译变得可行，实现了模型大小 11.8 倍的减小，内存占用减少 8.3 倍，速度提高 3.5 倍，同时 BLEU 低于 - 0.5。

Sep, 2020

BinaryBERT: 推进 BERT 量化极限

本文提出了 BinaryBERT，一种采用权重二值化的方法将 BERT 压缩到极限。论文发现，二进制 BERT 比三进制的更难以直接进行训练，因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明，BinaryBERT 模型只有轻微的性能损失，同时体积缩小了 24 倍，达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。

Dec, 2020

BiLLM: 提高 LLM 后训练量化的极限

BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程，显示了令人满意的时间效率。

Feb, 2024

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

PB-LLM：部分二元化大型语言模型

本文研究了网络二值化技术在大型语言模型（LLMs）压缩中的应用。通过提出一种新的方法，即部分二值化 LLMs（PB-LLM），我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化（PTQ）和量化感知训练（QAT）的分析，提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。

Sep, 2023

二元和三元自然语言生成

采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型，其在摘要和机器翻译的下游任务中达到了较高的得分，同时比全精度模型高效 16 倍以上。

Jun, 2023

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

使用四位整数训练变压器

本文提出了一种使用 INT4 算法进行 transformer 训练的方法，以实现低精度的前向和后向传播，并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度，从而实现在当前型号 GPU 上完成快速的模型训练。

Jun, 2023