高效 Transformer 知识蒸馏：绩效评估

EMNLPNov, 2023

高效 Transformer 知识蒸馏：绩效评估

Efficient Transformer Knowledge Distillation: A Performance Review

Nathan Brown, Ashton Williamson, Tahj Anderson, Logan Lawrence

TL;DR对高效注意力转换模型进行知识蒸馏的模型压缩评估，并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。

Abstract

As pretrained transformer language models continue to achieve state-of-the-art performance, the Natural Language Processing community has pushed for advances in model compression and →

pretrained transformer language models model compression efficient attention mechanisms knowledge distillation long-context named entity recognition

发现论文，激发创造

句向量排序模型的极端压缩：在边缘设备上实现更快的推理、更长的电池续航和更少的存储

本篇研究提出了在两种不同类型的 ranker 模型上扩展句子转换蒸馏过程的两种方法，包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明，采用这些扩展技术的学生模型具有极大的压缩程度，而且在测试数据集上表现出高度的有效性和能用性。

Jun, 2022

BERT 模型的知识蒸馏改进：损失函数、映射方法和权重调整

本研究使用了 Transformer-based 模型（如 BERT、GPT 和 T5），并进行了知识蒸馏来进行模型压缩，特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整，评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果，旨在提高知识蒸馏技术的效率和准确性，为各种自然语言处理任务的开发提供更高效和准确的模型。

Aug, 2023

基于 Transformer 的语言模型的知识蒸馏再探

针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题，该研究提出一种基于 knowledge distillation 的压缩方法，并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面，最终提供一套最佳实践指南。

Jun, 2022

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

RNN-Transducer 模型的高效知识蒸馏

本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法，通过对模型剪枝的过程结合知识蒸馏，实现了对小型模型精度的提高。实验结果表明，通过此方法可以在多种数据集上获得较好的性能提升。

Nov, 2020

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

拾獲的鬣狗：将 Transformer 精简为长卷积模型

介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Jan, 2024

BERT 排名器在蒸馏下的理解

本文研究了如何通过蒸馏将 BERT 中的搜索知识传递到更小的排名器中，实验表明，使用适当的蒸馏过程可以实现最高 9 倍速度提升，同时保持最先进的性能。

Jul, 2020

XtremeDistilTransformers：任务无关蒸馏中的任务转移

本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers，利用任务特定方法学习出一个通用模型，可以应用于任意语言和任务，并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能，并发布了三个蒸馏的任务不可知检查点，其中最小的检查点包含 1300 万个参数，实现了多项任务的 SOTA 表现。

Jun, 2021