BERT 的最优子结构提取
基于 Transformer 的模型 BERT 在多项任务上取得最先进的结果,但由于参数数量巨大,计算代价昂贵。本文提出了一种基于算法优化的轻量级压缩方案,成功地减少了模型中的参数数量,且在保证精度的情况下相比 BERT 模型取得了更好的性能。
May, 2020
本文提出了一种基于神经网络结构搜索 (neural architecture search, NAS) 的 BERT 压缩方法 NAS-BERT,其可输出多个带有不同大小和延迟的压缩模型,适用于不同的内存和延迟限制,并且不需要针对特定的下游任务进行调整。该方法在 GLUE 和 SQuAD 数据集上的实验表明,NAS-BERT 相比以前的方法具有更好的准确性,可以直接应用于具有不同内存或延迟要求的不同下游任务。
May, 2021
本研究提出了一种名为 AdaBERT 的压缩方法,利用可微分神经结构搜索自动为特定任务压缩 BERT,以达到速度和参数大小的较优权衡,并通过几个 NLP 任务的评估表明,能够保持与 BERT 相当的性能,但速度快 12.7x 到 29.3x,参数大小也小 11.5x 到 17.0x。
Jan, 2020
本文提出一种名为 AutoTinyBERT 的方法,采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数,为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式,并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。
Jul, 2021
我们提出了 once-for-all Transformer 压缩框架 LightHuBERT,通过剪枝结构化参数自动找到所需的结构,成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计,并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别(ASR)和 SUPERB 基准测试上实验表明,LightHuBERT 实现了超过 $10^9$ 种结构,深度,宽度,注意力维度,前馈网络比例和网络深度,在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT,与该教师模型在大多数任务中表现相当,在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比,即自动说话人验证、关键词检测和意图分类,在稍微减少准确率的情况下,可以实现 29% 的参数减少,并提供代码和预训练模型。
Mar, 2022
提出 AE-BERT,一种自动和高效的 BERT 剪枝框架,可在资源受限设备上实现基于 Transformer 自然语言处理模型并提高准确性。实验结果表明,在压缩模型后,与 CPU 相比使用 AE-BERT 产生的 BERT 基础编码器子网络可以在类似的总剪枝比率下获得更高的分数,并提高推理时间。
Jun, 2022
探索利用张量分解实现更大的压缩比率来压缩 BERT 模型的研究,取得了可接受的性能损失并显著提高了推理效率,最高压缩至原模型的 1/48,且在 GLUE 基准测试中取得了与原模型相当或略优的表现,该方法相对于蒸馏等现有的压缩方法独立有效。
May, 2022
本文研究了 Transformer-based 语言模型的压缩方法,提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中,同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。
Mar, 2022
本篇论文提出了一种混合模型压缩方法 LadaBERT,结合权重剪枝、矩阵分解和知识蒸馏等技术,可以在保持较高准确性的同时将训练开销减少一个数量级。LadaBERT 是一种适用于在线服务的轻量级 BERT 模型,可以更好地满足用户请求的低延迟需求。
Apr, 2020
本文提出了一种名为 FlexiBERT 的灵活多样的异构模型,引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略,以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题,大大提高了 GLUE 基准的性能。
May, 2022