数据增强对知识蒸馏的影响

May, 2023

Understanding the Effect of Data Augmentation on Knowledge Distillation

Ziqi Wang, Chi Han, Wenxuan Bao, Heng Ji

TL;DR本研究发现知识蒸馏与微调在数据增强方面的偏好不同，鼓励学者探索针对知识蒸馏的数据增强方法，且合适的语义漂移度（例如，更改 30% 的令牌通常是知识蒸馏的最佳选项），并发现对于小型数据集，较大的语义漂移度更加适合，直至出现超出分布的问题。

Abstract

knowledge distillation (KD) requires sufficient data to transfer knowledge from large-scale teacher models to small-scale student models. Therefore, data augmentation has been widely used to mitigate the shortage of data under specific scenarios. Classic →

knowledge distillation data augmentation semantic shift label distribution small datasets

发现论文，激发创造

将序列级知识蒸馏解释为神经机器翻译中的数据增强

使用序列级知识蒸馏技术在数据增强和正则化的前提下训练较小的机器翻译模型，可实现类似于基准 SLKD 的结果，并显著提高 BLEU 分数。

Dec, 2019

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

准备教材：利用更好的监督改进知识蒸馏

本研究提出了两种新颖的方法，知识调整（KA）和动态温度蒸馏（DTD），用于惩罚错误监督并改善学生模型，实验表明该方法在各种评测数据集上，以及与其他基于知识蒸馏的方法相结合时，都能获得鼓舞人心的表现。

Nov, 2019

通过标签修订和数据选择改进知识蒸馏

该论文提出了一种解决知识蒸馏中错误监督的问题的方法，即通过标签修正纠正教师模型的错误预测，并引入数据选择技术以减少错误监督的影响，实验证明该方法的有效性，并表明该方法可以与其他蒸馏方法相结合，提高其性能。

Apr, 2024

投影增强：一种有效高效的蒸馏数据增强范式

本文提出了一种名为 AugPro 的数据增强方法，通过在表示插值增强方法的基础上构建数据的多样性，并将增强数据转换为标记来避免转移决策边界，提高了蒸馏的性能并在计算效率上具有优势。

Oct, 2022

理解和改善知识蒸馏

本研究探讨了知识蒸馏的三个不同层次 —— 宇宙，领域以及实例，发现这三个因素在知识蒸馏中起着重要作用，并在大量实证研究基础上，诊断了某些知识蒸馏应用失败的情况。

Feb, 2020

使用领域针对性数据增强来提升知识蒸馏的鲁棒性

本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在 NLI 任务中的性能，在 out-of-distribution 方面的表现超过以前的方法。通过 Distilled Minority Upsampling 来鲁棒性提高了 SNLI-hard 的表现。

May, 2023

学习增强技术以提高数据缺乏领域的 BERT 知识蒸馏

该论文提出一种基于交叉领域数据增强的 BERT 知识蒸馏方法，借助资源丰富的源域来自动优化增强策略和提高学生模型性能，实验证明该方法优于现有方法，且在数据稀缺领域中，即使只有少量标记样本，压缩后的学生模型性能也能优于原始的大型教师模型。

Jan, 2021

元知识蒸馏

本文提出了一种元知识蒸馏（MKD）方法，利用可学习的元温度参数进行元学习，通过适应学习目标的梯度自适应地调整元参数以解决知识蒸馏（KD）的退化问题，从而在不同数据集规模、不同网络和不同数据扩增类型上实现了与当下最优秀方法相当的性能表现。

Feb, 2022

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023