schuBERT: 优化 BERT 的元素

ACLMay, 2020

schuBERT: Optimizing Elements of BERT

Ashish Khetan, Zohar Karnin

TL;DR基于 Transformer 的模型 BERT 在多项任务上取得最先进的结果，但由于参数数量巨大，计算代价昂贵。本文提出了一种基于算法优化的轻量级压缩方案，成功地减少了模型中的参数数量，且在保证精度的情况下相比 BERT 模型取得了更好的性能。

Abstract

transformers \citep{vaswani2017attention} have gradually become a key component for many state-of-the-art natural language representation models. A recent Transformer based model- bert \citep{devlin2018bert} achi

transformers bert natural language processing model compression accuracy

发现论文，激发创造

BERT 的最优子结构提取

通过对神经架构搜索的最新突破应用，我们从 Devlin 等人（2018）的 BERT 架构中提取出一组最优子集，称为 “Bort”，它的大小仅为原始 BERT-large 架构的 5.5％，网络大小为 16％。在 CPU 上快 7.9 倍，并取得了 0.3 ％至 31％之间的性能提升。

Oct, 2020

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

LightHuBERT: 一种轻量级可配置的语音表征学习方法，采用一次性隐藏单元 BERT

我们提出了 once-for-all Transformer 压缩框架 LightHuBERT，通过剪枝结构化参数自动找到所需的结构，成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计，并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别（ASR）和 SUPERB 基准测试上实验表明，LightHuBERT 实现了超过 $10^9$ 种结构，深度，宽度，注意力维度，前馈网络比例和网络深度，在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT，与该教师模型在大多数任务中表现相当，在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比，即自动说话人验证、关键词检测和意图分类，在稍微减少准确率的情况下，可以实现 29％的参数减少，并提供代码和预训练模型。

Mar, 2022

FlexiBERT：当前的 Transformer 架构是否过于同质化和僵化？

本文提出了一种名为 FlexiBERT 的灵活多样的异构模型，引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略，以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题，大大提高了 GLUE 基准的性能。

May, 2022

加载所需：多语言 BERT 的较小版本

本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Oct, 2020

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

ALBERT: 自监督学习语言表示的轻量级 BERT

本文提出两种参数缩减技术，结合一个以自我监督方式处理句间连贯的损失函数，成功地使用更少的参数将 BERT 模型的性能扩展至其他基准测试集，包括 GLUE，RACE 和 SQuAD。

Sep, 2019

SDBERT: SparseDistilBERT，一个更快、更小的 BERT 模型

本文介绍了一种新的 Transformer 架构 - SparseDistilBERT，使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度，本文实现的 SparseDistilBERT 在保留 97% 性能的前提下只使用了原 BERT 模型大小的 40% 且训练时间缩短了 40%。

Jul, 2022

Q-BERT: 基于 Hessian 的 BERT 超低精度量化

本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析，提出了一种超低精度量化 BERT 模型的新方法，并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试，证明我们的新方法实现了与基线相当的性能。

Sep, 2019