有阅读素养的学生学习更好:关于预训练紧凑模型的重要性
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
Apr, 2024
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并不能取得实质性的改进。
Oct, 2020
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
本研究表明,使用抽象摘要和关键词提取等技术,从不结构化的数据中构建一个紧凑的子集,可以更有效地和更快地为传统预训练及任务特定分类器的训练提供有关领域内的信息,减少了预训练时间,并在针对六个不同组合的数据集并使用两种不同的 NLMs 的条件下表现出了优越的结果。
Aug, 2022
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。
Nov, 2021
大型预训练视觉模型在多样的识别任务上表现出显著的泛化能力。然而,现实世界中的应用通常需要针对特定问题的紧凑模型。本文针对这一目的,提出了各种知识蒸馏的变体,使得特定任务的紧凑模型(学生)能够从通用的大型预训练模型(教师)中学习。我们展示了近期预训练模型出色的鲁棒性和多功能性挑战了文献中已经建立起来的共同实践,需要一组新的最优准则来进行特定任务的蒸馏。为了解决下游任务中样本不足的问题,我们还展示了一种基于稳定扩散的 Mixup 变体,该策略补充了标准数据增强,消除了工程化的文本提示的需求,改善了通用模型向精简专用网络的蒸馏。
Feb, 2024
本论文研究小型模型的预训练问题,提出了一种名为 Language-Guided Distillation (LGD) 的新方法,利用语言指导来帮助在大型网络和小型模型之间传递知识,实现优于现有方法的性能,验证了在分类、检测和分割等多个下游任务中的卓越表现。
Jun, 2024
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019