有限域上的知识传递的基本限制
本文研究了迁移学习中的广义化误差和 excess risk 问题,提出了一种信息论分析方法。结果表明 Kullback-Leibler divergence 在特定环境中能很好地描述广义化误差,我们还将结果推广到一种特定的经验风险最小化算法中。同时,该方法在迭代,噪声梯度下降算法中有潜在的应用。
May, 2020
本文研究了在后验漂移模型下,基于不同分布的观测数据的非参数分类问题中的迁移学习,首先构建了一个速率最优的两样本加权 K-NN 分类器并证明了收敛速率下限,接着提出了一种数据驱动的自适应分类器,证明了其能够同时在大量参数空间上实现接近最优速率,并给出了仿真研究和实际数据应用。同时,本文还考虑了多个源分布的情况。
Jun, 2019
研究如何在分布式网络中学习高维、非参数和结构化(如高斯)分布,并考虑不同通信模型(包括独立、顺序和黑板模型)的交互限制对于最小化风险和 Fisher 信息的影响。
Feb, 2019
研究知识蒸馏的目标函数 KL 散度损失在温度参数变大时侧重于 logit 匹配,而在温度参数趋近于 0 时侧重于标签匹配,提出使用均方误差作为损失函数,学生模型直接学习老师模型的 logit 向量。该方法优于 KL 散度损失,并可以改善标签噪声,通过实验证明了知识蒸馏的有效性。
May, 2021
使用半参数推断方法将知识蒸馏转换为目标学生模型、未知贝叶斯类概率和教师概率的 plug-in 估计值,引入交叉适应和损失校正两种方式来改善教师过度拟合和欠拟合对学生性能的影响,为标准蒸馏的预测误差提供了新的保证,并在表格式和图像数据上进行实证验证,观察到与知识蒸馏增强相关的一致改进。
Apr, 2021
本文提出了一个信息理论框架,用于评估在参数化贝叶斯设置下训练分类器所需的标记样本数量,并使用 $L_p$ 距离导出分类器和真实后验概率分类器之间的平均距离的上下界,并利用 $ L_p $ 丢失作为畸变度量,以后验分布的微分熵和插值维度的数量为最大先验分类器提供了下界和上界,这表征了参数分布族的复杂性,同时提供了计算贝叶斯 $L_p$ 风险的下界,是可能近似正确(PAC)框架的补充,该框架提供了涉及 Vapnik-Chervonenkis 维度或 Rademacher 复杂性的最小极大风险界,而所提出的速率 - 失真框架则为数据分布平均的风险提供了下界。
May, 2016
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在 logit 的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为 logit 的加权标准差,并在应用 softmax 和 Kullback-Leibler 散度之前进行 Z 分数预处理标准化。我们的预处理使学生能够关注来自教师的基本 logit 关系而不需要幅值匹配,并且可以提高现有基于 logit 的蒸馏方法的性能。我们还展示了一个典型案例,即教师和学生之间传统的温度共享设置不能可靠地产生真实的蒸馏评估;尽管如此,我们的 Z 分数成功缓解了这个挑战。我们对 CIFAR-100 和 ImageNet 上的各种学生和教师模型进行了广泛评估,展示了其显著优越性。通过我们的预处理,纯知识蒸馏方法能够达到与最先进方法相当的性能,而其他蒸馏变体则可以在我们的预处理辅助下获得相当大的收益。
Mar, 2024
本文探讨了在差分隐私约束下学习阈值函数的样本复杂度问题,并提出了一种新的算法来减少样本复杂度。该算法基于选择输入相关哈希函数和将数据库嵌入到大小对数减小的域中,从而在不泄露个体信息的情况下生成内部点。
Nov, 2019
本文提出了一种联合训练和源编码方案,具有可验证的期望保证,通过在条件分布和先验之间施加适当的 Kullback-Leibler 散度约束,同时保证了小的平均经验风险(即训练损失),小的平均泛化误差和小的平均通信成本。
Jun, 2024