模型蒸馏理论探索

MMMar, 2024

Towards a theory of model distillation

Enric Boix-Adsera

TL;DR蒸馏是用一个简化的模型替代复杂的机器学习模型的任务，该论文提出了蒸馏的一般理论，并应用该理论提出了新算法，可以高效地从训练好的神经网络中提取知识，将其蒸馏为简洁明确的决策树表示，并证明了蒸馏相比从头学习更廉价且复杂度有所减少。

Abstract

distillation is the task of replacing a complicated machine learning model with a simpler model that approximates the original [BCNM06,HVD15]. Despite many practical applications, basic questions about the extent

distillation machine learning model pac-distillation neural networks decision tree representations

发现论文，激发创造

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

蒸馏为什么有用：一个统计学的视角

本论文从统计角度阐述了知识蒸馏的原理，即让一个简单的 “学生” 模型依据一个复杂的 “教师” 模型得到的标签概率分布进行训练，从而提高性能，并提出了一种新颖的与极端多分类检索技术相关的方法。

May, 2020

知识蒸馏提高深度神经网络的可解释性

使用知识蒸馏技术将深度神经网络转换成决策树，以同时实现较好的性能和可解释性，并比基准决策树模型获得显著更高的精度，在 TensorFlow 平台上实现对大数据集的可扩展性。

Dec, 2018

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

探索知识蒸馏

本研究通过研究线性和深度线性分类器的特殊情况，证明了知识蒸馏在理论上的有效性，并揭示了决定其成功的三个关键因素：数据几何形态、优化偏差和强单调性。

May, 2021

改进数据集精炼的跨架构泛化

使用模型池方法进行数据蒸馏，结合知识蒸馏技术进行测试，从而创造出小规模合成数据集，在性能上表现优于现有方法。

Feb, 2024

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

深度学习中的知识蒸馏及其应用

通过使用知识蒸馏技术，从大模型 (教师模型) 中提取信息，训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标，并通过对知识蒸馏技术应用于深度学习模型进行调查，得出了一些有趣的结论。

Jul, 2020