面向任务无关的 BERT 压缩的权重继承蒸馏

May, 2023

面向任务无关的 BERT 压缩的权重继承蒸馏

Weight-Inherited Distillation for Task-Agnostic BERT Compression

Taiqiang Wu, Cheng Hou, Zhe Zhao, Shanshan Lao, Jiayi Li...

TL;DR本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法，通过直接从教师模型继承权重实现对学生模型的压缩，避免了传统方法中需要设计额外对齐损失的问题，实验结果表明 WID 在 GLUE 和 SQuAD 基准测试上的性能优于现有的知识蒸馏方法，并且可以在没有对齐损失的情况下学习到教师模型的注意力模式。

Abstract

knowledge distillation (KD) is a predominant approach for bert compression. Previous KD-based methods focus on designing extra alignment losses for the student model to mimic the behavior of the teacher model. Th

knowledge distillation bert compression weight-inherited distillation structural re-parameterization attention patterns

发现论文，激发创造

BERT 知识蒸馏：权重初始化和蒸馏目标对影响的实证研究

本文评估了不同的中间层蒸馏方法在 BERT 模型的压缩上的效果，并发现使用注意力转移方法获得了最佳性能。同时，通过研究初始化学生模型时选择的优化层对任务特异性的蒸馏表现影响显著，尤其是在 QNLI 任务方面，初始学习率较低的教师模型层获得了显著的性能提升。我们为后续研究发布了我们的代码作为高效的基于 Transformer 的模型蒸馏框架。

May, 2023

AdaKD：使用自适应损失加权的 ASR 模型动态知识蒸馏

本文提出了一种自适应知识蒸馏技术，通过课程学习的启发，以实例级别自适应地加权损失，并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。

May, 2024

AD-KD: 基于属性的知识蒸馏用于语言模型压缩

本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法，它探索了教师模型背后的 token-level 解释，并将知识转移给学生模型，进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中具有比其他现有方法更好的性能。

May, 2023

尊重知识蒸馏中的转移差距

该研究论文提出了一种新的逆概率加权蒸馏 (IPWD) 方法，用于解决知识蒸馏时两个领域之间数据分布不同的问题，该方法通过对样本的倾向得分估计进行加权，以弥补非独立同分布的数据中低频样本的不足，有效提高了知识蒸馏的准确度。

Oct, 2022

Wasserstein 对比表示蒸馏

本文提出了一种融合 Wasserstein 距离和对比学习的知识蒸馏方法 WCoRD，可以在压缩模型和跨模态迁移等任务上超越现有的方法。

Dec, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

加权平均改善领域偏移下的知识蒸馏

知识蒸馏是一种强大的模型压缩技术，该论文通过在域偏移下对权重平均技术的应用，桥接了知识蒸馏和域泛化的研究领域，并提出了一种简化的权重平均策略，称为加权平均知识蒸馏（WAKD）方法。

Sep, 2023

微型语音增强的两步知识蒸馏

借助知识蒸馏技术，我们提出了一种新的两步法来压缩 Tiny 语音增强模型，其中包括先用知识蒸馏目标进行预训练，然后切换到完全监督训练模式，同时提出了一种新的细粒度相似性保持 KD 损失函数，该方法在高压缩和低信噪比条件下表现出突出的改进，相对于基线，在输入信噪比为 - 5dB 和 63 倍压缩的情况下，信噪失真比分别提高了 0.9dB 和 1.1dB。

Sep, 2023

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023