贝叶斯距离聚类

Oct, 2018

Bayesian Distance Clustering

Leo L Duan, David B Dunson

TL;DR提出了一种贝叶斯距离聚类方法，它使用基于数据点之间成对差异的先验知识以取得更强的鲁棒性，可以在距离聚类和模型聚类之间找到一个平衡点，并通过其在脑基因表达数据的聚类应用中展示了其性能

Abstract

model-based clustering is widely-used in a variety of application areas. However, fundamental concerns remain about robustness. In particular, results can be sensitive to the choice of kernel representing the wit

bayesian distance clustering pairwise distances model-based clustering kernel choice robustness

发现论文，激发创造

基于贝叶斯非参数的 k-means 聚类新算法再探

本文从贝叶斯非参数的角度出发，重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法，我们发现这个算法在极限下接近于硬聚类算法，可以优雅且单调地最小化一个类似 k-means 的聚类目标，包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况，并讨论了进一步的扩展，包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。

Nov, 2011

鲁棒自动数据聚类：狄利克雷过程遇见中位数均值

通过整合基于模型和基于质心的方法，提出了一种高效且自动的聚类技术，解决噪声对聚类质量的影响，并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证，表明我们提出的方法优于现有先进聚类算法。

Nov, 2023

MAD-Bayes: 基于 MAP 的渐近推导与贝叶斯

应用小方差渐近方法直接处理贝叶斯非参数模型的后验概率，得到一种超越聚类的特征学习目标函数，并提出一些易于实现的新算法，这些算法的效果被实验结果验证。

Dec, 2012

从流形学习的角度重新思考 k-means

该论文提出了一种基于流形学习和张量正则化的聚类算法，不同于传统的基于 k-means 的方法，该算法通过构建距离矩阵来直接检测数据簇，同时应用于多视图数据中，证明了其优越性能。

May, 2023

基于非参数混合模型的异质边缘分布多重联合聚类

提出了一种新的多聚类方法，该方法使用非参数贝叶斯方法进行模型推断，使用变分推断来求解，该方法在处理高维度数据时更为适用，在聚类时模型同时处理了数值型和分类型变量，应用该方法于真实数据集时能够推出数据集的聚类结构信息，并可应用于抑郁症数据集上。

Oct, 2015

通过简化粗糙化方法实现稳健的贝叶斯推断

本文提出了一种改进的贝叶斯推断方法，可以通过条件数据的经验分布邻域而不是实际数据，提高模型对扰动的鲁棒性；该方法使用基于相对熵估计的邻域，通过将似然函数提升到分数次幂（即 tempering），使得可以使用标准方法实现推断，甚至在使用共轭先验时也能获得解析解。实验结果表明，在混合模型、未知阶数自回归模型及线性回归变量选择等任务中都能得到良好表现。

Jun, 2015

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

稳健的拓扑推断：距离度量和核距离

文章采用持久同调方法总结距离函数下水平集的拓扑特征，提出了抗噪声和异常值的距离测度方法 DTM 和核函数距离，并对 DTM 进行了浓度界定和参数选择。

Dec, 2014

广义密度聚类

本研究研究了广义密度聚类，提出了两种数据基础方法来选择波宽，并研究了密度聚类的稳定性，表明一种简单的基于图的算法可以成功地近似高密度聚类。

Jul, 2009

基于模型的网络群聚类

我们提出了一种基于广义线性（混合）模型的基于模型的聚类方法，用于描述网络人口的联合分布并识别共享某些感兴趣的拓扑性质的网络子人口，最大似然估计可通过 EM 算法实现。

Jun, 2018