本地内在维度熵
本文提出了一个使用再生核希尔伯特空间中的算子直接从数据中非参数地获取熵测度的框架,并定义了类似于量子熵的熵泛函,此方法避免了估计底层概率分布。同时定义了基于核的条件熵和互信息的估计量,并在独立性测试上进行了数值实验且表现良好。
Nov, 2012
在这项工作中,我们介绍了一种自动选择合适尺度的协议,该尺度能够使内在维度具有意义且有用,并且通过对人工和真实数据集的基准测试来证明了该程序的实用性和鲁棒性。
May, 2024
本文提出并验证八种数据分布度量方法,相对于现有方法,其中大部分具有改进效果,建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。
Dec, 2022
研究高斯卷积下微分熵估计的样本复杂性问题,通过使用主成分分析方法解决了在数据维度指数级增长时估计微分熵的缺陷,并提出在深度神经网络中使用低维度 PCA 方法对信息流进行研究的应用,对噪声卷积神经网络的 MNIST 分类问题进行了实验验证。
May, 2023
本文介绍了基于线性可分性的本地 ID 估算器,并与其他利用测量集中各种效应引入的 ID 估算器进行比较并研究其属性。观察到的估算器之间的差异可用于预期它们在实际应用中的行为。
Jan, 2020
高维数据具有令人惊讶的特性:仅使用简单的线性分类器就可以高概率地将数据点配对分开,甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念,精确地捕捉了数据的可分离性质。对于这个内在维度,以上的经验法则成为一条规律:高内在维度保证了数据的高可分离性。我们将这个概念扩展为两个数据分布的相对内在维度,并证明它提供了成功学习和推广二元分类问题的概率的上下界。
Oct, 2023
本文针对数据的低固有维度这一流形假设,提出了一种基于内在维度的统计精细界限的方法,证明了最小固有维度缩放现象是一种普遍现象,为熵正则化的统计效应提供了首个严格解释。
Jun, 2023
基于扩散模型的 Fokker-Planck 方程提供了一种解决现有方法缺陷的局部内在维度估计器 FLIPD,它兼容于各种流行的深度生成模型,并在局部内在维度估计基准测试中优于现有基线模型。
Jun, 2024
本文提出了确定内在维度函数的计算方法,通过将数学测量集中现象公理地与内在维度联系起来,我们证明了其计算的可行性,并在模型中体现了复杂数据的几何特性,特别地,我们提出了一种将邻域信息纳入内在维度的主要方式,使得对常见图学习过程的新洞察成为可能。
Oct, 2022
在合适的正则条件下,表明差分熵和 (离散) Shannon 熵分别是关于二次 Wasserstein 距离和 Ornstein 的 $ar d$- 距离的分布的 Lipschitz 函数,结合 Talagrand 和 Marton 的运输 - 信息不等式,可以用它们的 i.i.d. 近似来代替未知的多用户干扰。作为应用,证明了二用户高斯干扰信道的新的外界,特别是解决了 Costa (1985) 的 “缺失拐角点” 问题。
Apr, 2015