本地内在维度熵

AAAIApr, 2023

Local Intrinsic Dimensional Entropy

Rohan Ghosh, Mehul Motani

TL;DR本文探讨基于数据维度和结构本身而非基于统计的方法，提出一种计算连续空间熵的测度，称作 ID-Entropy，该熵测度适合在神经网络中广泛使用，可以保留数据固有的维度信息，并在分类器和自动编码器中直接控制泛化差距的大小。

Abstract

Most entropy measures depend on the spread of the probability distribution over the sample space X, and the maximum entropy achievable scales proportionately with the sample space cardinality |X|. For a finite |X|, this yields robust →

entropy measures continuous spaces id-entropy intrinsic dimension deep learning

发现论文，激发创造

利用无限可分核从数据中测量熵

本文提出了一个使用再生核希尔伯特空间中的算子直接从数据中非参数地获取熵测度的框架，并定义了类似于量子熵的熵泛函，此方法避免了估计底层概率分布。同时定义了基于核的条件熵和互信息的估计量，并在独立性测试上进行了数值实验且表现良好。

Nov, 2012

超越噪音：最佳邻域识别下的内在维数估计

在这项工作中，我们介绍了一种自动选择合适尺度的协议，该尺度能够使内在维度具有意义且有用，并且通过对人工和真实数据集的基准测试来证明了该程序的实用性和鲁棒性。

May, 2024

高维潜空间中可靠的散布度量

本文提出并验证八种数据分布度量方法，相对于现有方法，其中大部分具有改进效果，建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。

Dec, 2022

高维平滑熵估计：基于降维技术

研究高斯卷积下微分熵估计的样本复杂性问题，通过使用主成分分析方法解决了在数据维度指数级增长时估计微分熵的缺陷，并提出在深度神经网络中使用低维度 PCA 方法对信息流进行研究的应用，对噪声卷积神经网络的 MNIST 分类问题进行了实验验证。

May, 2023

基于测度集中的本地内在维度估计器

本文介绍了基于线性可分性的本地 ID 估算器，并与其他利用测量集中各种效应引入的 ID 估算器进行比较并研究其属性。观察到的估算器之间的差异可用于预期它们在实际应用中的行为。

Jan, 2020

相对内在维度与学习的内在性

高维数据具有令人惊讶的特性：仅使用简单的线性分类器就可以高概率地将数据点配对分开，甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念，精确地捕捉了数据的可分离性质。对于这个内在维度，以上的经验法则成为一条规律：高内在维度保证了数据的高可分离性。我们将这个概念扩展为两个数据分布的相对内在维度，并证明它提供了成功学习和推广二元分类问题的概率的上下界。

Oct, 2023

熵优化传输的最小内在维度缩放

本文针对数据的低固有维度这一流形假设，提出了一种基于内在维度的统计精细界限的方法，证明了最小固有维度缩放现象是一种普遍现象，为熵正则化的统计效应提供了首个严格解释。

Jun, 2023

数据复杂性的几何视角：基于扩散模型的高效局部内部维度估计

基于扩散模型的 Fokker-Planck 方程提供了一种解决现有方法缺陷的局部内在维度估计器 FLIPD，它兼容于各种流行的深度生成模型，并在局部内在维度估计基准测试中优于现有基线模型。

Jun, 2024

大规模几何学习的内在维度

本文提出了确定内在维度函数的计算方法，通过将数学测量集中现象公理地与内在维度联系起来，我们证明了其计算的可行性，并在模型中体现了复杂数据的几何特性，特别地，我们提出了一种将邻域信息纳入内在维度的主要方式，使得对常见图学习过程的新洞察成为可能。

Oct, 2022

熵的 Wasserstein 连续性与干扰通道外界

在合适的正则条件下，表明差分熵和 (离散) Shannon 熵分别是关于二次 Wasserstein 距离和 Ornstein 的 $ar d$- 距离的分布的 Lipschitz 函数，结合 Talagrand 和 Marton 的运输 - 信息不等式，可以用它们的 i.i.d. 近似来代替未知的多用户干扰。作为应用，证明了二用户高斯干扰信道的新的外界，特别是解决了 Costa (1985) 的 “缺失拐角点” 问题。

Apr, 2015