BEBERT：高效稳健的二进制集成 BERT

Oct, 2022

BEBERT：高效稳健的二进制集成 BERT

BEBERT: Efficient and Robust Binary Ensemble BERT

Jiayi Tian, Chao Fang, Haonan Wang, Zhongfeng Wang

TL;DR本文提出了一种二进制集合 BERT（BEBERT）模型，采用集成技术来弥补其与全精度 BERT 相比的精度差距，同时保持计算效率，实验证明，BEBERT 在精度和鲁棒性方面明显优于现有的二进制 BERT 模型，训练时间更快，模型尺寸和 FLOPs 分别比全精度基准低 13 倍和 15 倍，同时也优于其他压缩 BERT 的精度高达 6.7%。

Abstract

Pre-trained bert models have achieved impressive accuracy on natural language processing (NLP) tasks. However, their excessive amount of parameters hinders them from efficient deployment on edge devices. binarization

bert models binarization ensemble techniques glue benchmark efficiency

发现论文，激发创造

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

BinaryBERT: 推进 BERT 量化极限

本文提出了 BinaryBERT，一种采用权重二值化的方法将 BERT 压缩到极限。论文发现，二进制 BERT 比三进制的更难以直接进行训练，因此提出了三进制权重分裂来初始化 BinaryBERT 网络。实验结果表明，BinaryBERT 模型只有轻微的性能损失，同时体积缩小了 24 倍，达到了 GLUE 和 SQuAD 基准测试的最先进压缩结果。

Dec, 2020

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

TernaryBERT: 知识蒸馏感知的超低比特 BERT

本文提出 TernaryBERT，在 fine-tuned BERT 模型中采用了三元权重化，通过近似法和损失感知方法研究了 BERT 不同部分的三元化粒度，并在训练过程中利用知识蒸馏技术来减少低位容量引起的精度下降，实验证明 TernaryBERT 不仅优于其他 BERT 量化方法，而且在 14.9 倍的情况下与全精度模型性能相当。

Sep, 2020

Multi-CLS BERT：传统集成的高效替代方案

本文提出了 Multi-CLS BERT 方法，它是一种高效的 BERT 模型集成方法，不需要在测试时运行多个 BERT 模型，只需要运行单个 Multi-CLS BERT 模型。在 GLUE 和 SuperGLUE 数据集上，实验证明这种方法能够显著提高准确度和置信度。

Oct, 2022

MobileBERT：一种紧凑型的面向资源受限设备的通用任务 BERT 模型

本文介绍了 MobileBERT，它是一种用于压缩和加速流行的 BERT 模型的方法，通过使用瓶颈结构和仔细设计的自我关注和前馈网络之间的平衡来实现。实证研究表明，MobileBERT 比 BERT_BASE 小 4.3 倍，比 BERT_BASE 快 5.5 倍，并在众所周知的基准测试中取得了有竞争力的结果。

Apr, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

二元和三元自然语言生成

采用一种基于统计的权重量化和弹性激活量化的方法实现了第一批三元和双元变压器模型，其在摘要和机器翻译的下游任务中达到了较高的得分，同时比全精度模型高效 16 倍以上。

Jun, 2023

在资源受限嵌入式设备中部署 BERT NLP 模型的挑战探索

通过对 BERT-based 模型在不同资源限制和准确度预算下的实证研究，发现一个最优资源和准确度平衡点，帮助设计者在替代的 BERT-based 架构中做出明智的选择，节省显著的开发时间和精力。

Apr, 2023

EdgeBERT：面向延迟感知的多任务 NLP 推理的句子级能耗优化

EdgeBERT 是一种算法硬件协同设计，提供基于熵的早期退出预测，以进行动态电压频率缩放 (DVFS)，从而实现最小能耗，同时遵循预定的目标延迟，以适应资源受限的边缘平台，在最小的计算和存储占用开销下，提供多任务自然语言处理 (NLP) 加速，相比于传统的推理方法，无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配，EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面，能够生成高达 7x，2.5x 和 53x 的低能耗。

Nov, 2020