Nov, 2015

流式和分布式大稀疏数据的 k-Means

TL;DR一个可证明近似稀疏大数据 K-means 问题的流式算法及其性能提升结果,应用了一种稀疏的 (k, ε) 子集算法,可在不依赖于数据和维度的情况下,精确地计算每个点到 k 个中心的平方距离之和,从而使得在离线设置下的启发式算法的性能得到了大幅提升。