基于 Jensen-Shannon 散度的转移泛化差信息论界限
本文研究了迁移学习中的广义化误差和 excess risk 问题,提出了一种信息论分析方法。结果表明 Kullback-Leibler divergence 在特定环境中能很好地描述广义化误差,我们还将结果推广到一种特定的经验风险最小化算法中。同时,该方法在迭代,噪声梯度下降算法中有潜在的应用。
May, 2020
本文提出了一种使用抽象均值的 Jensen-Shannon(JS)差异的推广来绕过高斯分布之间的 JS 差异无法使用封闭形式表示的问题,并定义了任何距离的 JS 对称化。我们特别分别以几何平均和调和平均为例,推导了封闭形式的公式,其中包括基于相同指数族的概率密度之间的几何 JS 差异以及逆 Kullback-Leibler 差异的几何 JS 对称化,以及在剖面调和分布情况下的调和 JS 差异,同时定义了矩阵之间的 JS 差异,并考虑了在这些新型 JS 差异之下的聚类问题。
Apr, 2019
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler(KL)散度或 1-Wasserstein 距离导出了两个层次性的泛化误差界限。KL 散度界限随着层索引的增加而收缩,而 Wasserstein 界限暗示了存在一个层作为泛化漏斗,它达到了最小的 1-Wasserstein 距离。在具有线性 DNN 的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化 DNN 模型(Dropout,DropConnect 和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和 Gibbs 算法的 DNNs 表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
本文研究如何利用边缘分布和随机变量之间的依赖关系来估计概率事件的概率,并在自适应数据分析和学习理论中应用,其中包括 Sibson 的互信息、α- 散度、Hellinger 散度、f - 散度等多种方法,并将最大泄密量作为特例进行了研究。
Dec, 2019
通过样本分布和经验代理之间的平滑 JSD 差异,提出了一种新的训练目标,基于核的 GAN,旨在克服 GAN 的训练困难,提高其实际效果。
May, 2017
该研究使用算法传输成本的期望 Wasserstein 距离得到了学习算法泛化误差的上界,为通过最优传输视图研究学习算法的泛化提供了新途径并对损失函数施加了较少的限制,并通过总变差距离、相对熵和 VC 维度提供了几个其他的算法传输成本的上界,最后基于我们的建立的框架,我们分析了深度学习中的泛化误差并得出了结论:深度神经网络中的泛化误差随着层数的增加而指数级下降。
Nov, 2018
本研究对基于 Gibbs 的转移学习算法的泛化能力进行了信息论分析,结果表明转移学习的好处可以看作是源分布引起的偏差和目标样本不足引起的方差的权衡。
Nov, 2021
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法,进而得到新的期望值和高概率条件下泛化误差的上界,特别地,还包括了基于互信息、条件互信息、随机链和 PAC-Bayes 不等式等现有泛化界限的特例。此外,Fernique-Talagrand 上界也是一个特例。
May, 2023
提出了一种新的、高效的目标函数,通过动态先验,直接逼近单模态和联合多模态后验概率分布,利用 Jensen-Shannon 散度求解多个分布的问题,并理论证明了该模型的有效性,在无监督的生成学习任务中表现优异。
Jun, 2020
模型泛化性和预测分布在数据的广泛应用中至关重要,本研究通过基于 Hellinger 距离、Jensen-Shannon 和 Kullback-Leibler 散度的模型差异概念,发现散度得分相对于最高 1 的概念在测试误差估计和检测率上提供更好的结果,实验涉及标准视觉和基础模型。
Dec, 2023