WWWMay, 2015

Parallel Streaming Signature EM-tree: 面向 Web 规模应用的聚类算法

TL;DR本研究提出了一种可伸缩的聚类算法,使用 EM-tree 算法在单个中型计算机上对数千亿个网页进行聚类,并在 ClueWeb09 和 ClueWeb12 上应用该算法,将 500 到 700 万个网页聚类成 50-70 万个聚类,进而提高了聚类质量的评价。