二进制数据的内在维度是多少？- 如何快速计算

Apr, 2024

二进制数据的内在维度是多少？- 如何快速计算

What is the $\textit{intrinsic}$ dimension of your binary data? -- and how to compute it quickly

Tom Hanika, Tobias Hille

TL;DR使用基于概念的内部维度对数据集进行分析和理解的研究，提出了一种基于计算概念的近似方法，通过计算某个支持值来评估内部维度，并使用 Tatti 等人的多个数据集进行验证。

Abstract

dimensionality is an important aspect for analyzing and understanding (high-dimensional) data. In their 2006 ICDM paper Tatti et al. answered the question for a (interpretable) dimension of binary data tables by introducing a →

dimensionality data analysis normalized correlation dimension intrinsic dimension approximation

发现论文，激发创造

大规模几何学习的内在维度

本文提出了确定内在维度函数的计算方法，通过将数学测量集中现象公理地与内在维度联系起来，我们证明了其计算的可行性，并在模型中体现了复杂数据的几何特性，特别地，我们提出了一种将邻域信息纳入内在维度的主要方式，使得对常见图学习过程的新洞察成为可能。

Oct, 2022

相对内在维度与学习的内在性

高维数据具有令人惊讶的特性：仅使用简单的线性分类器就可以高概率地将数据点配对分开，甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念，精确地捕捉了数据的可分离性质。对于这个内在维度，以上的经验法则成为一条规律：高内在维度保证了数据的高可分离性。我们将这个概念扩展为两个数据分布的相对内在维度，并证明它提供了成功学习和推广二元分类问题的概率的上下界。

Oct, 2023

超越噪音：最佳邻域识别下的内在维数估计

在这项工作中，我们介绍了一种自动选择合适尺度的协议，该尺度能够使内在维度具有意义且有用，并且通过对人工和真实数据集的基准测试来证明了该程序的实用性和鲁棒性。

May, 2024

深度神经网络中数据表示的内在维度

研究了深度神经网络的几何属性和数据表示的内在维度，发现最后一个隐藏层的内在维度预测测试集合的分类准确性，这证明了可以广泛应用的神经网络是将数据转换为低维非线性流形的网络。

May, 2019

利用 Fisher 可分析性估算大型生物数据集的有效维度

通过分析数据点的可分离性，我们测试了一种最近引入的维数估计器，该估计器在多个基准测试和真实生物数据集上具有与最先进的度量相竞争的性能，并允许在内在嵌入假设不成立的情况下估计内在维数。

Jan, 2019

图像表示的内在维度

本文研究了图像表示的内在维度，提出了一种基于深度神经网络的非线性映射算法 DeepMDS，并通过图像匹配验证了其映射的正确性。实验结果表明，在 LFW、IJB-C 和 ImageNet-100 等基准数据集上，深度神经网络表示的内在维度显著低于环境特征的维数。

Mar, 2018

以内在维度索引虹膜

通过采集来自大学城相对多样的人口中的 650 多个不同个体的 1350 个独特眼睛的 28000 多张高质量虹膜图像，选择规范化虹膜图像的小部分作为快速识别未知个体时的关键部分，并将其与 1350 个独特眼睛的登记虹膜数据库匹配，从而测量这些关键部分集的内在维度约为四个，并通过主成分分析将其映射到四维的内在空间。当提供虹膜图像以进行识别时，搜索将从 4D 内在空间中的关键部分位置附近开始，通常在与数据库仅百分之几的比较后找到正确的识别匹配。

Sep, 2023

本质维度相关性：揭示多模态表示中的非线性连接

探索了机器学习方法背后的机制，利用内在维度与相关性之间的纠缠提出了一种度量标准，用于量化高维流形之间的相关性。验证了方法在合成数据上的优势和缺点，并在神经网络表示中将分析扩展到大规模应用，揭示了多模态数据的潜在表示之间明显的关联，而现有方法在检测相似性方面存在显著困难。研究结果表明了潜在流形之间高度非线性的相关性模式的存在。

Jun, 2024

基于测度集中的本地内在维度估计器

本文介绍了基于线性可分性的本地 ID 估算器，并与其他利用测量集中各种效应引入的 ID 估算器进行比较并研究其属性。观察到的估算器之间的差异可用于预期它们在实际应用中的行为。

Jan, 2020

图像的内在维度及其对学习的影响

本文探讨了深度学习在计算机视觉领域的成功是否源于自然图像数据低维结构的存在，研究表明自然图像数据集确实具有很低的内在维度，并且低维度数据集更容易被神经网络学习和泛化。同时提出了一种可以在生成对抗网络（GAN）生成的合成数据上验证维度估计工具的技术。

Apr, 2021