BERT 的最优子结构提取

Oct, 2020

Optimal Subarchitecture Extraction For BERT

Adrian de Wynter, Daniel J. Perry

TL;DR通过对神经架构搜索的最新突破应用，我们从 Devlin 等人（2018）的 BERT 架构中提取出一组最优子集，称为 “Bort”，它的大小仅为原始 BERT-large 架构的 5.5％，网络大小为 16％。在 CPU 上快 7.9 倍，并取得了 0.3 ％至 31％之间的性能提升。

Abstract

We extract an optimal subset of architectural parameters for the BERT architecture from Devlin et al. (2018) by applying recent breakthroughs in algorithms for neural architecture search. This optimal subset, which we refer to as "→

neural architecture search bert architecture bort pretraining nlu benchmarks

发现论文，激发创造

schuBERT: 优化 BERT 的元素

基于 Transformer 的模型 BERT 在多项任务上取得最先进的结果，但由于参数数量巨大，计算代价昂贵。本文提出了一种基于算法优化的轻量级压缩方案，成功地减少了模型中的参数数量，且在保证精度的情况下相比 BERT 模型取得了更好的性能。

May, 2020

NAS-BERT: 任务无关和自适应尺寸 BERT 压缩及神经架构搜索

本文提出了一种基于神经网络结构搜索 (neural architecture search, NAS) 的 BERT 压缩方法 NAS-BERT，其可输出多个带有不同大小和延迟的压缩模型，适用于不同的内存和延迟限制，并且不需要针对特定的下游任务进行调整。该方法在 GLUE 和 SQuAD 数据集上的实验表明，NAS-BERT 相比以前的方法具有更好的准确性，可以直接应用于具有不同内存或延迟要求的不同下游任务。

May, 2021

AdaBERT: 可适应任务的 BERT 压缩与可微分神经架构搜索

本研究提出了一种名为 AdaBERT 的压缩方法，利用可微分神经结构搜索自动为特定任务压缩 BERT，以达到速度和参数大小的较优权衡，并通过几个 NLP 任务的评估表明，能够保持与 BERT 相当的性能，但速度快 12.7x 到 29.3x，参数大小也小 11.5x 到 17.0x。

Jan, 2020

AutoTinyBERT：用于高效预训练语言模型的自动超参数优化

本文提出一种名为 AutoTinyBERT 的方法，采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数，为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式，并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。

Jul, 2021

LightHuBERT: 一种轻量级可配置的语音表征学习方法，采用一次性隐藏单元 BERT

我们提出了 once-for-all Transformer 压缩框架 LightHuBERT，通过剪枝结构化参数自动找到所需的结构，成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计，并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别（ASR）和 SUPERB 基准测试上实验表明，LightHuBERT 实现了超过 $10^9$ 种结构，深度，宽度，注意力维度，前馈网络比例和网络深度，在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT，与该教师模型在大多数任务中表现相当，在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比，即自动说话人验证、关键词检测和意图分类，在稍微减少准确率的情况下，可以实现 29％的参数减少，并提供代码和预训练模型。

Mar, 2022

面向边缘 AI 系统的自动高效 BERT 剪枝

提出 AE-BERT，一种自动和高效的 BERT 剪枝框架，可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明，在压缩模型后，与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网络可以在类似的总剪枝比率下获得更高的分数，并提高推理时间。

Jun, 2022

探索预训练语言模型的极端参数压缩

探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究，取得了可接受的性能损失并显著提高了推理效率，最高压缩至原模型的 1/48，且在 GLUE 基准测试中取得了与原模型相当或略优的表现，该方法相对于蒸馏等现有的压缩方法独立有效。

May, 2022

最优 BERT 外科医生：可扩展和精确的二阶修剪方法，适用于大型语言模型

本文研究了 Transformer-based 语言模型的压缩方法，提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中，同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。

Mar, 2022

LadaBERT：通过混合模型压缩实现 BERT 的轻量化适应

本篇论文提出了一种混合模型压缩方法 LadaBERT，结合权重剪枝、矩阵分解和知识蒸馏等技术，可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型，可以更好地满足用户请求的低延迟需求。

Apr, 2020

FlexiBERT：当前的 Transformer 架构是否过于同质化和僵化？

本文提出了一种名为 FlexiBERT 的灵活多样的异构模型，引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略，以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题，大大提高了 GLUE 基准的性能。

May, 2022