二值化神经机器翻译
本文提出一种改进的二元转换器方法,通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法,实现了在实际精度水平下的完全二元化转换模型,并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。
May, 2022
BitNet 是一种可扩展且稳定的 1 位 Transformer 架构,用于大型语言模型,通过引入 BitLinear 作为 nn.Linear 层的替代方案,BitNet 可以从零开始训练 1 位权重,实验结果表明,与最先进的 8 位量化方法和 FP16 Transformer 相比,BitNet 在语言建模方面能够达到有竞争力的性能,同时大幅减少内存占用和能源消耗,此外,BitNet 表现出与全精度 Transformer 类似的扩展规律,说明它具有在保持高效和性能优势的同时,有效扩展到更大的语言模型的潜能。
Oct, 2023
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
本文提出了 BinaryBERT,一种采用权重二值化的方法将 BERT 压缩到极限。论文发现,二进制 BERT 比三进制的更难以直接进行训练,因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明,BinaryBERT 模型只有轻微的性能损失,同时体积缩小了 24 倍,达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。
Dec, 2020
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程,显示了令人满意的时间效率。
Feb, 2024
本文提出了一种全二值化 BERT(BiBERT)模型,通过有效的双向 attention 结构来最大化表示信息的统计信息,并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化,证明了比现有量化 BERT 性能更好,在计算资源有限的情况下可以显着节省 FLOPs(56.3 倍)和模型大小(31.2 倍)。
Mar, 2022
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。
Sep, 2023
采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型,其在摘要和机器翻译的下游任务中达到了较高的得分,同时比全精度模型高效 16 倍以上。
Jun, 2023
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
本文提出了一种使用 INT4 算法进行 transformer 训练的方法,以实现低精度的前向和后向传播,并通过 Hadamard 量化器和位分裂等技术处理异常值和稀疏梯度,从而实现在当前型号 GPU 上完成快速的模型训练。
Jun, 2023