通用依存分析

Oct, 2015

Universal Dependency Analysis

Hoang-Vu Nguyen, Jilles Vreeken

TL;DR提出了一种基于累积熵的多元相关性度量方法，称为 UDS，可用于测量任何维度的子空间的相关性，能够有效地捕捉线性和非线性相关性，且性能优于现有的相关性测量方法。

Abstract

Most data is multi-dimensional. Discovering whether any subset of dimensions, or subspaces, of such data is significantly correlated is a core task in data mining. To do so, we require a measure that quantifies how correlated a subspace is. For practical use, such a measure should be universal in the sense that it captures correlation in subspaces of any dim

multi-dimensional data subspace correlation universal correlation assessment non-parametric correlation measure cumulative entropy

发现论文，激发创造

非冗余聚类的自动参数选择

该论文提出了一个利用最小描述长度原则（MDL）自动检测子空间数量和每个子空间中的簇数的框架，并描述了一种有效的过程，通过在子空间内进行分裂和合并子空间和簇来贪婪搜索参数空间。此外，介绍了一种编码策略，可在每个子空间中检测异常值。广泛的实验表明，该方法与最先进的方法具有很高的竞争力。

Dec, 2023

支持地下不确定性量化和解释的稳定低维空间的刚性变换

我们提出了一种稳定的欧几里德不变描绘方法，并通过计算输入的 MDS 差异矩阵，应用刚性变换和多个实现，确保变换不变并整合 OOSP，验证了我们的方法在达到一致的 LDS 表示方面的有效性。

Aug, 2023

基于矩阵熵函数的依赖度测量

本文总结并将现有的信息论依赖度量的主要思想推广到更高层次的透视图，并基于此提出了两种测量依赖性的新方法，分别是基于矩阵的归一化总相关量和基于矩阵的归一化双重总相关量，用于量化多变量在任意维度空间中的交互依赖关系，同时探究其在基因调控网络推理、机器学习、异常值检测以及卷积神经网络学习动态等四个问题中的应用，以此展示其实用性、优点和意义。

Jan, 2021

高维潜空间中可靠的散布度量

本文提出并验证八种数据分布度量方法，相对于现有方法，其中大部分具有改进效果，建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。

Dec, 2022

本地内在维度熵

本文探讨基于数据维度和结构本身而非基于统计的方法，提出一种计算连续空间熵的测度，称作 ID-Entropy，该熵测度适合在神经网络中广泛使用，可以保留数据固有的维度信息，并在分类器和自动编码器中直接控制泛化差距的大小。

Apr, 2023

利用随机投影的马氏距离 DIP 统计量进行多元单峰性检验

通过线性随机投影和点对点距离计算，我们提出了一种根据 α- 单峰假设的多元单峰性测试方法，命名为 mud-pod，通过将一维单峰性原理推广到多维空间中，从而在多维数据集的单峰性评估和聚类数量估计方面表现出良好效果。

Nov, 2023

通过 Hellinger 相关性增强充分降维

本文提出了一种新的理论和方法，用于单指数模型中的充分降维 (SDR)，SDR 是基于条件独立性的监督降维的一个子领域。利用 Hellinger 相关作为一种依赖度量，我们开发了一种能够有效检测降维子空间的方法，并给出了理论解释。通过大量的数值实验，我们证明了我们提出的方法明显优于现有的 SDR 方法。这种改进主要归因于我们提出的方法对数据依赖性的更深入理解和对现有 SDR 技术的改进。

May, 2024

相对依赖性的低方差一致性测试

使用 Hilbert-Schmidt 独立准则（HSIC）测量依赖性，建立了新型非参数统计假设检验方法，用于确定一个源变量对于两个候选目标变量的依赖性。测试表明第一个依赖度量是否显著大于第二个，其结果表明建立这些 HSIC 统计数据之间的协方差计算比独立 HSIC 统计量的子采样法更有效。

Jun, 2014

子空间最小二乘多维缩放

本文介绍了一种基于最小二乘 (LS-MDS) 的多维缩放方法，并将其置于频谱域中进行了分析，得出了距离缩放的多重分辨率属性，从而加速了优化过程并实现了良好的嵌入效果。

Sep, 2017

超越标签：基于距离分布熵的聚类分析进展 (EDD)

该研究论文介绍了一种新的无标签聚类分析方法，称为距离分布熵（EDD），它通过量化数据集中数据点间的距离特征差异来判断聚类倾向，具有更好的兼容性和鲁棒性，可用于解析复杂数据结构。

Nov, 2023