用于微聚类任务的随机划分模型

Apr, 2020

Random Partition Models for Microclustering Tasks

Brenda Betancourt, Giacomo Zanella, Rebecca C. Steorts

TL;DR本文提出了一种满足微聚类特性的贝叶斯随机分区模型，并在实验中展示了该模型在实体解析的应用。

Abstract

Traditional bayesian random partition models assume that the size of each cluster grows linearly with the number of data points. While this is appealing for some applications, this assumption is not appropriate for other tasks such as →

bayesian random partition models microclustering entity resolution sparse networks dna sequencing

发现论文，激发创造

灵活的微聚类模型及其在实体消解中的应用

本文提出了一种可以产生微小聚类的模型并把它应用于实体解析领域，并与其他聚类模型进行了比较。

Oct, 2016

微聚类：当聚类大小与数据集大小呈次线性增长时

本研究提出一种具有微聚类特性的新模型，可应用于需要聚类大小与数据集大小呈次线性增长的任务，通过比对实验数据和模拟数据的适配情况，验证该模型的有效性。

Dec, 2015

可微随机分区模型

提出了一种新的两步方法来推断随机分区模型的参数，允许可变推断任务的使用，并具有可重参数化梯度，能够在对参数进行端到端基于梯度的优化时克服先前方法的限制，本方法在三个具有挑战性的实验中显示出了它的通用性。

May, 2023

基于非参数混合模型的异质边缘分布多重联合聚类

提出了一种新的多聚类方法，该方法使用非参数贝叶斯方法进行模型推断，使用变分推断来求解，该方法在处理高维度数据时更为适用，在聚类时模型同时处理了数值型和分类型变量，应用该方法于真实数据集时能够推出数据集的聚类结构信息，并可应用于抑郁症数据集上。

Oct, 2015

随机模型对聚类相似性的影响

本论文研究聚类的相似性度量方法，为不同的随机聚类模型推导了两个校正变体，比较了它们在合成例子，手写识别和基因表达数据中的效果，并指出随机聚类模型的选择对评估聚类方法和聚类对比排序有重大影响。

Jan, 2017

分区和特征分配的摘要统计

本文提出了一种基于区块大小的统计量，并且采用基于元素的熵的定义来量化其分割信息，并且使用熵聚类算法简化和可视化信息，实验证明这种统计量在实践中非常有用，使用于各种无限混合后验及特征分配数据集。

Oct, 2013

具有聚类特性的稀疏随机图

本文介绍了一种扩展了边远离独立性的稀疏随机图的一般模型，并且通过构造非齐性随机超图来替代每个超边，再通过与某个积分算子的范数相关来解释巨型连通性的临界点，并将该巨型连通量与某些（非 Poisson）多类型分支过程的生存概率关联起来，同时研究度分布和数量小子图的细节。

Jul, 2008

改善的图聚类

本文提出了一种新算法 —— 最大似然凸化版本，用于解决在随机块模型环境下的社交网络图聚类问题，相较于目前已有算法，本文算法在允许普遍规模的簇大小时的表现高出多项式因子。

Oct, 2012

基于贝叶斯非参数的 k-means 聚类新算法再探

本文从贝叶斯非参数的角度出发，重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法，我们发现这个算法在极限下接近于硬聚类算法，可以优雅且单调地最小化一个类似 k-means 的聚类目标，包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况，并讨论了进一步的扩展，包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。

Nov, 2011

潜在的随机步骤作为最大割、最小割和更多的松弛

基于非负矩阵分解的概率模型统一了节点聚类和图简化，提供了建模任意图结构的框架。通过将硬聚类放松为软聚类，我们的算法将潜在的困难聚类问题转化为易处理的问题。

Aug, 2023