聚类的递归方案

Jan, 2024

The recursive scheme of clustering

Alicja Miniak-Górecka, Krzysztof Podlaski, Tomasz Gwizdałła

TL;DR我们的研究论文提出了一种递归方案来对地理（气候学）实验中获取的数据进行聚类，通过与专家评估结果的比较，表明使用这种新方法的聚类结果更可接受。

Abstract

The problem of data clustering is one of the most important in data analysis. It can be problematic when dealing with experimental data characterized by →

data clustering measurement uncertainties experimental data geographical experiments climatological experiments

发现论文，激发创造

只有在聚类无关紧要时才很困难

本文提出了一个基于度量空间的 “好聚类” 的理论框架，展示了如果存在好的聚类，则在许多情况下可以轻易地找到它，因此与流行观点相反，聚类不应被视为一项艰苦的任务。

May, 2012

聚类的计算理论与半监督算法

提出了一种计算理论和半监督聚类算法，将聚类定义为根据所选的聚类原则和度量方法获得数据分组，使每个组不包含异常值，所有其他示例被认为是边缘点，孤立的异常值、异常簇或未知簇。

Jun, 2023

强健层次聚类

本文提出了一种新的鲁棒的自下而上聚类算法，并展示了在满足一定自然属性且传统算法失效的情况下，该算法可以被用来进行准确的聚类。同时，该算法也被适用于归纳设置，并在合成数据和真实数据集上的实验表明，在存在噪音时，与其他分层算法相比，该算法可以获得更好的表现。

Jan, 2014

高效的层次聚类主动算法

该研究提出了一个基于层次聚类和谱聚类算法的框架，来解决大型数据集处理的问题，该算法在小型数据子集上运行，具有较高的性能、测量复杂度和运行时复杂度。经过广泛的实验验证，该框架实际上非常具有吸引力。

Jun, 2012

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

一个信息论的视角：聚类数量

研究聚类问题中的最优聚类数量问题，提出了一种基于信息理论框架的方法，其利用熵和温度之间的关系来找到数据集的最佳聚类数量，以及通过校正聚类标准来解决采样误差问题，找到最大的有意义结构和聚类的解决方案。

Mar, 2003

一种基于混合 SOM 和 K-means 模型的时间序列能耗聚类

介绍了一种将自组织映射和 K 均值聚类相结合的新方法来有效聚类月度能源消耗模式，通过该方法可以增强难以找到模式的数据集的聚类结果的准确性和可解释性。实验证明了该方法在聚类任务中的有效性。

Nov, 2023

将聚类视为不适定问题：K-Means 算法实验

本文研究了基于 KMeans 算法的聚类过程作为反问题的特殊情况，探索了通过主成分分析来改进聚类反问题质量的尝试，并比较了两种定量特征选择方法之间的关系。使用神经科学数据库中的功能性磁共振成像范例来验证结果。

Nov, 2022

聚类分析中的形状复杂性

利用多维数据的形状复杂度概念，应用在特定的非线性函数上，制定了一种新的 “中等距离” 下的基于约束的非线性规划问题，从而探索更有效的聚类缩放因子数量的方法。

May, 2022

基于聚类的数据汇总方法：用于运营决策

扩大数据聚合方法的效果，提出一种利用问题之间的聚类结构的新型基于聚类的缩小 SAA 方法，证明该方法对问题数量的增长有额外的益处，探讨了不同距离度量对方法性能的影响，验证了聚类型数据聚合方法相较于现有方法在小数据大规模情景中的优势。

Nov, 2023