BEBERT:高效稳健的二进制集成 BERT
本文提出了一种全二值化 BERT(BiBERT)模型,通过有效的双向 attention 结构来最大化表示信息的统计信息,并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化,证明了比现有量化 BERT 性能更好,在计算资源有限的情况下可以显着节省 FLOPs(56.3 倍)和模型大小(31.2 倍)。
Mar, 2022
本文提出了 BinaryBERT,一种采用权重二值化的方法将 BERT 压缩到极限。论文发现,二进制 BERT 比三进制的更难以直接进行训练,因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明,BinaryBERT 模型只有轻微的性能损失,同时体积缩小了 24 倍,达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。
Dec, 2020
本文提出一种改进的二元转换器方法,通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法,实现了在实际精度水平下的完全二元化转换模型,并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。
May, 2022
本文提出 TernaryBERT,在 fine-tuned BERT 模型中采用了三元权重化,通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度,并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降,实验证明 TernaryBERT 不仅优于其他 BERT 量化方法,而且在 14.9 倍的情况下与全精度模型性能相当。
Sep, 2020
本文提出了 Multi-CLS BERT 方法,它是一种高效的 BERT 模型集成方法,不需要在测试时运行多个 BERT 模型,只需要运行单个 Multi-CLS BERT 模型。在 GLUE 和 SuperGLUE 数据集上,实验证明这种方法能够显著提高准确度和置信度。
Oct, 2022
本文介绍了 MobileBERT,它是一种用于压缩和加速流行的 BERT 模型的方法,通过使用瓶颈结构和仔细设计的自我关注和前馈网络之间的平衡来实现。实证研究表明,MobileBERT 比 BERT_BASE 小 4.3 倍,比 BERT_BASE 快 5.5 倍,并在众所周知的基准测试中取得了有竞争力的结果。
Apr, 2020
采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型,其在摘要和机器翻译的下游任务中达到了较高的得分,同时比全精度模型高效 16 倍以上。
Jun, 2023
通过对 BERT-based 模型在不同资源限制和准确度预算下的实证研究,发现一个最优资源和准确度平衡点,帮助设计者在替代的 BERT-based 架构中做出明智的选择,节省显著的开发时间和精力。
Apr, 2023
EdgeBERT 是一种算法硬件协同设计,提供基于熵的早期退出预测,以进行动态电压频率缩放 (DVFS),从而实现最小能耗,同时遵循预定的目标延迟,以适应资源受限的边缘平台,在最小的计算和存储占用开销下,提供多任务自然语言处理 (NLP) 加速,相比于传统的推理方法,无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配,EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面,能够生成高达 7x,2.5x 和 53x 的低能耗。
Nov, 2020