对齐蒸馏：神经机器翻译中用于知识蒸馏的可训练注意力对齐

COLINGMar, 2024

对齐蒸馏：神经机器翻译中用于知识蒸馏的可训练注意力对齐

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation

Heegon Jin, Seonil Son, Jemin Park, Youngseok Kim, Hyungjong Noh...

TL;DR通过学生模型与教师模型的自适应对齐，'Align-to-Distill'（A2D）策略在 Transformer 架构的知识蒸馏中解决了特征映射问题，实验证明 A2D 相较于 Transformer 基准模型，在 WMT-2022 的 De->Dsb 和 WMT-2014 的 En->De 翻译任务中分别获得了 + 3.61 和 + 0.63 BLEU 得分的提升。

Abstract

The advent of scalable deep models and large datasets has improved the performance of neural machine translation. knowledge distillation (KD) enhances efficiency by transferring knowledge from a teacher model to

neural machine translation knowledge distillation transformer architecture align-to-distill attention alignment module

发现论文，激发创造

ALP-KD: 基于注意力的层映射知识蒸馏

研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术，通过将教师网络和学生网络的信息进行融合，并且考虑每层的重要性，在中间层进行蒸馏。实验表明，该技术能够优于其他现有的技术。

Dec, 2020

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

基于多头注意力网络的图卷积知识蒸馏

本文提出了一种新颖的知识蒸馏方法，通过多头注意力网络从大型教师网络中提取基于数据集的知识，并进行多任务学习，大大提高了小型学生网络的性能。

Jul, 2019

退火知识蒸馏

本文介绍了一种名为 Annealing-KD 的改进型知识蒸馏方法，通过渐进式地提供教师模型提供的丰富信息来训练更小的学生模型，从而使得知识蒸馏方法在训练力度较大的学生模型时更有效。作者在不同的任务上进行了实验验证，包括图像分类和自然语言推理等。

Apr, 2021

目标感知 Transformer 的知识蒸馏

本篇论文提出了一种新型的知识蒸馏方法，采用一对所有的空间匹配，提高小型神经网络的性能，不同于以往的一对一的空间匹配，从而导致所有的空间位置通常都具有不同的语义信息。该方法在各种计算机视觉基准测试中都超过了最先进的方法。

May, 2022

面向机器阅读理解的注意力引导答案蒸馏

本文针对无数模型的集成、易受对抗攻击、敏感度等当前阅读理解系统的困境，提出基于知识蒸馏的方法，首先对纯知识蒸馏模型对答案跨度预测的有效性进行了论证，其次，提出两种创新方法，它们不仅惩罚了对混淆答案的预测，还利用了集成中蒸馏出来的对齐信息来指导训练。实验表明，我们的最佳学生模型在推理期间仅运行 12 倍的时间，与集成模型相比，在 SQuAD 测试集上仅有 0.4％的 F1 得分下降，在对抗 SQuAD 数据集和 NarrativeQA 基准测试中甚至胜过老师。

Aug, 2018

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

基于注意力特征匹配的知识蒸馏

本文提出一种利用基于注意力的元网络来实现特征蒸馏的方法，该方法在不手动选择链接的情况下有效地控制了所有可能的特征对的蒸馏强度，从而提供了更好的模型压缩和迁移学习任务的性能。

Feb, 2021