Dec, 2014

LightLDA: 在中小型计算集群上进行大规模主题建模

TL;DR通过使用 O(1)MH 采样算法,结构性并行模型方案和有界异步数据并行方案,本文展示了只需要 8 台机器即可在网页级语料库上训练具有 1 亿个主题和 100 万个单词的主题模型(共计 1 万亿个参数),这是目前尚未用数千台机器实现的规模,并且随着集群规模的增加,仍然享有比的时间成本降低,这代表了一项重大的技术突破。