高效 Transformer 知识蒸馏:绩效评估
本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本研究使用了 Transformer-based 模型(如 BERT、GPT 和 T5),并进行了知识蒸馏来进行模型压缩,特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整,评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。
Aug, 2023
针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题,该研究提出一种基于 knowledge distillation 的压缩方法,并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面,最终提供一套最佳实践指南。
Jun, 2022
本研究聚焦于多语言实体识别,探究知识蒸馏压缩预训练语言模型的多种策略,通过利用教师模型内部表示的分阶段优化方案,成功将 MBERT 模型压缩了 35 倍参数,51 倍批量推理的延迟,同时保持在 41 种语言中的 95%的 F1 分数。
Apr, 2020
本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的 token-level 解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。
May, 2023
本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法,通过对模型剪枝的过程结合知识蒸馏,实现了对小型模型精度的提高。 实验结果表明,通过此方法可以在多种数据集上获得较好的性能提升。
Nov, 2020
本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏,提出了一种简单有效的压缩大型预训练模型的方法,同时引入了新的 “缩放点积” 深层自我注意知识,并在这个基础上设计了一个小留学生模型来减少参数量和延迟,实现了对 GLUE 质量基准测试的有效超越。
Feb, 2020
介绍一种使用知识蒸馏进行架构间转移的方法,通过将注意力头替换为 Hyena,提供一种高效且经济的大规模语言模型预训练方法,既能处理长篇文本又能提高推理速度和准确性,以在 AI 领域追求可持续发展。
Jan, 2024
本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers,利用任务特定方法学习出一个通用模型,可以应用于任意语言和任务,并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能,并发布了三个蒸馏的任务不可知检查点,其中最小的检查点包含 1300 万个参数,实现了多项任务的 SOTA 表现。
Jun, 2021