理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

EMNLPNov, 2022

理解和改善知识蒸馏，针对大型 Transformer 编码器的量化感知训练

Understanding and Improving Knowledge Distillation for Quantization-Aware Training of Large Transformer Encoders

Minsoo Kim, Sihwa Lee, Sukjin Hong, Du-Seong Chang, Jungwook Choi

TL;DR本文提出了两种知识蒸馏方法，即注意力映射和注意力输出损失，并探索了两者的统一，以解决注意力重构的不足。实验结果表明，这两种知识蒸馏方法可以在使用小于 2 位的量化权重时，获得具有先进性的精度。

Abstract

knowledge distillation (KD) has been a ubiquitous method for model compression to strengthen the capability of a lightweight model with the transferred knowledge from the teacher. In particular, KD has been employed in

knowledge distillation model compression quantization-aware training transformer encoders attention recovery

发现论文，激发创造

自监督量化感知知识蒸馏

该论文提出了一种新颖的自监督量化感知知识蒸馏 (SQAKD) 框架，通过将量化感知训练与知识蒸馏相结合，同时最小化全精度模型与低比特模型之间的 KL-Loss 和量化的离散化误差，从而有效克服了现有方法需要繁琐的超参数调节、标签数据需求和复杂的训练过程的限制，并在各种模型结构上明显优于现有的量化感知训练和知识蒸馏方法。

Mar, 2024

QKD：量化知识蒸馏

本文提出了一种量化感知知识蒸馏的方法，并通过三个阶段的教学来协调量化和 KD，从而在 ImageNet 和 CIFAR-10 / 100 数据集上提高了模型的性能。

Nov, 2019

海报：自监督量化感知知识蒸馏

本研究提出了一种自监督量化感知知识蒸馏框架 (SQAKD)，可同时最小化 KL-Loss 和离散化误差，显著提升各种最先进的量化感知训练方法的性能。

Sep, 2023

基于注意机制的知识蒸馏模型压缩的代表性教师关键

本文提出了一种基于注意力机制的知识蒸馏方法，名为代表性教师关键 (point)（RTK），可以实现从大型模型中提取特征信息并训练小型模型，在保证特征相似性的同时过滤掉无用信息，在几个常用的数据集上进行实验，取得了显著的分类准确率提升。

Jun, 2022

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

基于 Transformer 的语言模型的知识蒸馏再探

针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题，该研究提出一种基于 knowledge distillation 的压缩方法，并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面，最终提供一套最佳实践指南。

Jun, 2022

基于类别注意力转移的知识蒸馏

提出了一种基于类别注意力传递的知识蒸馏（CAT-KD）方法，该方法不仅具有高解释性，还在多个基准测试中实现了最先进的性能，通过传输课程激活地图，从而提供了关于 CNN 的更好的理解，并改进了 CAT-KD 的解释性。

Apr, 2023

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

对齐蒸馏：神经机器翻译中用于知识蒸馏的可训练注意力对齐

通过学生模型与教师模型的自适应对齐，'Align-to-Distill'（A2D）策略在 Transformer 架构的知识蒸馏中解决了特征映射问题，实验证明 A2D 相较于 Transformer 基准模型，在 WMT-2022 的 De->Dsb 和 WMT-2014 的 En->De 翻译任务中分别获得了 + 3.61 和 + 0.63 BLEU 得分的提升。

Mar, 2024

基于多头注意力网络的图卷积知识蒸馏

本文提出了一种新颖的知识蒸馏方法，通过多头注意力网络从大型教师网络中提取基于数据集的知识，并进行多任务学习，大大提高了小型学生网络的性能。

Jul, 2019