聚类分析中的形状复杂性

May, 2022

Shape complexity in cluster analysis

Eduardo J. Aguilar, Valmir C. Barbosa

TL;DR利用多维数据的形状复杂度概念，应用在特定的非线性函数上，制定了一种新的 “中等距离” 下的基于约束的非线性规划问题，从而探索更有效的聚类缩放因子数量的方法。

Abstract

In cluster analysis, a common first step is to scale the data aiming to better partition them into clusters. Even though many different techniques have throughout many years been introduced to this end, it is probably fair to say that the workhorse in this preprocessing phase has been

cluster analysis scaling techniques multidimensional shapes k-means shape complexity

发现论文，激发创造

基于数据分布的图像聚类算法

通过使用大数定律重新衍生出的 “对比损失”，我们将其重新解读为一种 “福音”，这种现象使得分布的实例集中在一个狭窄的 “超壳” 上，从而实现数据点的聚类，并且能够从未组织的数据中寻找模式。

Apr, 2018

潜在维度聚类

本文提出了一种称为渐进聚类的新技术，它将每个数据点通过其潜在的点维度进行聚类，该点维度是与该点本地数据集的维度有关的尺度。这种渐进聚类技术可以广泛应用于各种数据集的分析中，并通过距离方法以点的第 n 个最近邻点来评估数据点的点维度，同时将其应用于动态系统、图像和人类动作等领域进行分析。

May, 2018

数据形态：数据分布的内在距离

用 Gromov-Wasserstein 距离的下界，通过对所有数据矩计算，基于内在和多尺度的方法对比数据流形。实验证明，该方法能够有效地识别不同维度未对齐数据的结构，并展示了在评估生成模型质量方面的功效。

May, 2019

使用特征重新缩放因子恢复带有噪声特征的数据集中的聚类数

本文介绍了三种重新调整数据集以提高对具有附加噪声特征的球形高斯簇返回聚类有效性指数的真实数量的可能性的方法，论文实验表明这些方法可以在不同聚类中考虑到不同特征的度量，以及这些方法可以增加估计数据集中真实聚类数量的准确性。

Feb, 2016

ShapeVis：大规模高维数据可视化

本文提出了一种基于拓扑数据分析的可扩展点云数据可视化技术 ——ShapeVis，通过构建数据流形上的加权见证图和从标准社区检测算法中引入的感应映射来压缩表示点云特征，并使用模块化方法剪枝和重建图形以总结数据的形状。与 Mapper 方法相比，我们的算法可以适用于成百万点数据的可视化展示。

Jan, 2020

尺度缩放

该研究在强化概念缩放的数学理论方面进行了贡献，给出了精确定义和引入了缩放维度的概念用于研究概念格结构的量化，同时进行较为详尽的性质讨论及理论边界分析。

Feb, 2023

形状优化中的异常检测和设计空间降维的生成模型

我们的研究提出了一种新的形状优化方法，通过减少定义新的减少子空间的原始设计变量的数量，并通过概率线性潜变量模型（如因子分析和概率主成分分析）对数据的生成过程建模，以提高全局优化算法的效率，并在优化过程中生成没有几何异常的高质量设计。

Aug, 2023

大规模几何学习的内在维度

本文提出了确定内在维度函数的计算方法，通过将数学测量集中现象公理地与内在维度联系起来，我们证明了其计算的可行性，并在模型中体现了复杂数据的几何特性，特别地，我们提出了一种将邻域信息纳入内在维度的主要方式，使得对常见图学习过程的新洞察成为可能。

Oct, 2022

ShaRP：形状规则化的多维投影

该研究提出了一种新型投影技术 ShaRP，它能够帮助用户在高维数据的可视化中更好地掌控投影形状，以满足交互式可视化场景的需求，并且在保证数据质量的同时，也能够很好地应对高维度和大规模数据集。

Jun, 2023

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005