Oct, 2017
单连接聚类在 l_p 距离下的大规模并行算法和难度
Massively Parallel Algorithms and Hardness for Single-Linkage Clustering Under $\ell_p$-Distances
Grigory Yaroslavtsev, Adithya Vadapalli
TL;DR介绍了用 Apache Spark 实现的高效的大规模并行算法来计算单链接聚类问题,该算法在 Hamming 距离,L1,L2 和 L∞ 距离下均能实现单轮 MPC,和(除了 Hamming 距离的精确算法外)都能实现(1+ε)- 近似,同时证明了在标准 MPC 难度假设下,o(log n)轮算法的常数近似难度结果。