贝叶斯距离聚类
本文从贝叶斯非参数的角度出发,重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似 k-means 的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
通过整合基于模型和基于质心的方法,提出了一种高效且自动的聚类技术,解决噪声对聚类质量的影响,并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证,表明我们提出的方法优于现有先进聚类算法。
Nov, 2023
应用小方差渐近方法直接处理贝叶斯非参数模型的后验概率,得到一种超越聚类的特征学习目标函数,并提出一些易于实现的新算法,这些算法的效果被实验结果验证。
Dec, 2012
该论文提出了一种基于流形学习和张量正则化的聚类算法,不同于传统的基于 k-means 的方法,该算法通过构建距离矩阵来直接检测数据簇,同时应用于多视图数据中,证明了其优越性能。
May, 2023
提出了一种新的多聚类方法,该方法使用非参数贝叶斯方法进行模型推断,使用变分推断来求解,该方法在处理高维度数据时更为适用,在聚类时模型同时处理了数值型和分类型变量,应用该方法于真实数据集时能够推出数据集的聚类结构信息,并可应用于抑郁症数据集上。
Oct, 2015
本文提出了一种改进的贝叶斯推断方法,可以通过条件数据的经验分布邻域而不是实际数据,提高模型对扰动的鲁棒性;该方法使用基于相对熵估计的邻域,通过将似然函数提升到分数次幂(即 tempering),使得可以使用标准方法实现推断,甚至在使用共轭先验时也能获得解析解。实验结果表明,在混合模型、未知阶数自回归模型及线性回归变量选择等任务中都能得到良好表现。
Jun, 2015
该研究采用信息理论的视角来重新构造聚类问题,避免了许多现有聚类方法所依赖的非常规结构的假设,且捕捉了非线性关系。基于集体相似度而非传统的成对度量,该方法在不同领域内都表现出比现有算法更高的聚类一致性。
Nov, 2005
文章采用持久同调方法总结距离函数下水平集的拓扑特征,提出了抗噪声和异常值的距离测度方法 DTM 和核函数距离,并对 DTM 进行了浓度界定和参数选择。
Dec, 2014
我们提出了一种基于广义线性(混合)模型的基于模型的聚类方法,用于描述网络人口的联合分布并识别共享某些感兴趣的拓扑性质的网络子人口,最大似然估计可通过 EM 算法实现。
Jun, 2018