Feb, 2020

可解释的K均值和K中值聚类

TL;DR本文提出了一种使用决策树对数据集进行聚类的算法,并探讨了该方法对 k-means 和 k-medians 目标函数的适用性。作者证明了常见的自顶向下决策树算法可能会导致成本任意大的聚类结果,但设计了一种有效的方法使用具有 k 个叶子的树生成可解释的聚类,并对于两个中心点的情况,仅需要一个阈值切割即可实现常数近似。