通过自我集成和自我蒸馏提高 BERT 微调
本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。
Sep, 2022
使用自我蒸馏微调(SDFT)方法,本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距,解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战,并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时,在下游任务上实现了与传统微调相当或更优的性能,并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。
Feb, 2024
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
本文提出了一种新颖的速度可调的 FastBERT 语言模型,通过采用自适应推理时间和独特的自蒸馏机制,在保证性能的同时提高了计算效率,并在 12 个英文和中文数据集上取得了良好的结果。
Apr, 2020
我们提出了一种有效的动态纠正自蒸馏方法来改善预训练语言模型的微调过程,通过迭代的自我纠正过程显著增强了预训练语言模型的微调能力,并在各种下游任务中提高了性能和鲁棒性。
Dec, 2023
使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。
Jul, 2019
本文主要研究神经网络中的自然语言处理,通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务,证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下,与 ELMo 相比获得可媲美的结果。
Mar, 2019
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019