Aug, 2023

数据易于 (对于 K-Means)

TL;DR该论文研究了 $k$-means 算法的能力,正确地恢复互相分离的簇群。基于常见的簇群定义,考虑了簇内同质性和簇间多样性的要求,并找到了一种特殊情况的互相分离簇群,使得 $k$-means 的代价函数全局最小值与互相分离性一致。通过实验发现各种 $k$-means 品牌实际上无法发现互相分离的簇群,因此提出了一种新的算法,通过重复子抽样选择种子的方式,对 $k$-means++ 进行变体改进,并在任务中胜过 $k$-means 系列中的其他四种算法。