schuBERT: 优化 BERT 的元素
通过对神经架构搜索的最新突破应用,我们从 Devlin 等人(2018)的 BERT 架构中提取出一组最优子集,称为 “Bort”,它的大小仅为原始 BERT-large 架构的 5.5%,网络大小为 16%。在 CPU 上快 7.9 倍,并取得了 0.3 %至 31%之间的性能提升。
Oct, 2020
我们提出了 once-for-all Transformer 压缩框架 LightHuBERT,通过剪枝结构化参数自动找到所需的结构,成功地将嵌套数千个共享权重子网的基于 Transformer 的超网进行了设计,并使用两阶段蒸馏策略从 HuBERT 利用上下文化的潜在表征。在自动语音识别(ASR)和 SUPERB 基准测试上实验表明,LightHuBERT 实现了超过 $10^9$ 种结构,深度,宽度,注意力维度,前馈网络比例和网络深度,在 ASR 和五个 SUPERB 任务上表现优于原始的 HuBERT,与该教师模型在大多数任务中表现相当,在三个 SUPERB 任务中具有 $3.5 imes$ 的压缩比,即自动说话人验证、关键词检测和意图分类,在稍微减少准确率的情况下,可以实现 29% 的参数减少,并提供代码和预训练模型。
Mar, 2022
本文提出了一种名为 FlexiBERT 的灵活多样的异构模型,引入了新的图形相似度嵌入方案和 BOSHNAS 神经体系结构搜索策略,以此解决使用固定维度模型的 NAS 方法所遇到的子优解问题,大大提高了 GLUE 基准的性能。
May, 2022
本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型,研究结果表明,相比蒸馏的方法,此种方法能在保持性能的情况下,将模型总参数减少达 45% 左右。
Oct, 2020
本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现,并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而,在模型大小和训练数据等方面存在重大差异的情况下,我们发现这些模型在这些科学任务上的表现几乎没有差异,这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。
May, 2022
本文提出两种参数缩减技术,结合一个以自我监督方式处理句间连贯的损失函数,成功地使用更少的参数将 BERT 模型的性能扩展至其他基准测试集,包括 GLUE,RACE 和 SQuAD。
Sep, 2019
本文介绍了一种新的 Transformer 架构 - SparseDistilBERT,使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度,本文实现的 SparseDistilBERT 在保留 97% 性能的前提下只使用了原 BERT 模型大小的 40% 且训练时间缩短了 40%。
Jul, 2022
本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析,提出了一种超低精度量化 BERT 模型的新方法,并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试 ,证明我们的新方法实现了与基线相当的性能。
Sep, 2019