EfficientBERT: 通过热身知识蒸馏逐层搜索多层感知器
优化预训练语言模型(PLM)在商用硬件上的部署,通过模型压缩技术提高效率,将 Feed-forward 网络划分为两部分以提高已有压缩方法的效果,并取得了可观的模型尺寸减小和推理速度提升的效果。
Jan, 2024
本文提出一种名为 AutoTinyBERT 的方法,采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数,为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式,并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。
Jul, 2021
通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
FastBERT 是一种 BERT 变种,使用仅占其神经元的指数部分进行推断,同时表现出与类似 BERT 模型相当的性能。它通过将前馈网络替换为快速前馈网络来实现,每层推断只有 12 个神经元参与。我们提供了高效的 CPU 代码和 PyTorch 实现,分别获得了 78 倍和 40 倍的加速效果,同时发布了训练代码、基准设置和模型权重。
Nov, 2023
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
我们提出了 SPT 系统,通过引入稀疏性来高效地微调基于 Transformers 的模型,减少内存消耗,并且在各种模型配置上优于优化的基准模型,将峰值内存消耗降低了多达 50%,加速微调速度高达 2.2 倍。
Dec, 2023
本文介绍了 MobileBERT,它是一种用于压缩和加速流行的 BERT 模型的方法,通过使用瓶颈结构和仔细设计的自我关注和前馈网络之间的平衡来实现。实证研究表明,MobileBERT 比 BERT_BASE 小 4.3 倍,比 BERT_BASE 快 5.5 倍,并在众所周知的基准测试中取得了有竞争力的结果。
Apr, 2020
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比现有的 MoE 架构实现更低的困惑度。
May, 2023
提出 AE-BERT,一种自动和高效的 BERT 剪枝框架,可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明,在压缩模型后,与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网络可以在类似的总剪枝比率下获得更高的分数,并提高推理时间。
Jun, 2022
EdgeBERT 是一种算法硬件协同设计,提供基于熵的早期退出预测,以进行动态电压频率缩放 (DVFS),从而实现最小能耗,同时遵循预定的目标延迟,以适应资源受限的边缘平台,在最小的计算和存储占用开销下,提供多任务自然语言处理 (NLP) 加速,相比于传统的推理方法,无限制的早期退出方法以及在 Nvidia Jetson Tegra X2 移动 GPU 上的 CUDA 适配,EdgeBERT 硬件系统在激活多任务 NLP 推理加速方面,能够生成高达 7x,2.5x 和 53x 的低能耗。
Nov, 2020