Jan, 2019
基于合成语料的主题建模算法新评估框架
A new evaluation framework for topic modeling algorithms based on synthetic corpora
Hanyu Shi, Martin Gerlach, Isabel Diersen, Doug Downey, Luis A. N. Amaral
TL;DR该论文提出了一种基于合成语料库的新框架,用于评估概率主题建模算法,通过比较标记在标记级别上的指定主题标签,能够量化种植和推断主题结构之间的一致性。通过实验,揭示了主题模型的相对强度随语料库特征变化的新见解,并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。