有限域上的知识传递的基本限制
本文研究了在后验漂移模型下,基于不同分布的观测数据的非参数分类问题中的迁移学习,首先构建了一个速率最优的两样本加权 K-NN 分类器并证明了收敛速率下限,接着提出了一种数据驱动的自适应分类器,证明了其能够同时在大量参数空间上实现接近最优速率,并给出了仿真研究和实际数据应用。同时,本文还考虑了多个源分布的情况。
Jun, 2019
本文研究了迁移学习中的广义化误差和 excess risk 问题,提出了一种信息论分析方法。结果表明 Kullback-Leibler divergence 在特定环境中能很好地描述广义化误差,我们还将结果推广到一种特定的经验风险最小化算法中。同时,该方法在迭代,噪声梯度下降算法中有潜在的应用。
May, 2020
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的plug-in估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
研究知识蒸馏的目标函数KL散度损失在温度参数变大时侧重于logit匹配,而在温度参数趋近于0时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的logit向量。该方法优于KL散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。
May, 2021
本文提出HASTE(HArd Subset TransfErability)方法,通过使用较难的目标数据子集来估计源模型转移到特定目标任务的可转移性,结合内部和输出表示方法提出两种技术来识别较困难的子集,从而可与任何现有可迁移度度量一起使用以提高其可靠性,实验结果表明,HASTE修改的指标与现有的可迁移度指标一致或更佳。
Jan, 2023
本文提出了一种新的知识蒸馏方法 PTLoss,通过扰动 KL-based distillation loss function,将原始 teacher 转换为更接近 ground truth 的 proxy teacher,从而显著提高了知识蒸馏的效果。
May, 2023