Dec, 2014

词网络话题模型:短文本和不平衡文本的简单通用解决方案

TL;DR本文提出了一种基于词共现网络的模型 WNTM,通过模拟每个词的主题分布来解决短文本的稀疏性和不平衡性问题,并通过使用与 LDA 相同的 Gibbs 采样使得 WNTM 易于扩展到各种应用场景。对短文本和普通文本的广泛验证证明了 WNTM 相对于基线方法具有更好的性能,并且可以精确地发现微博等应用程序中新兴主题或意外事件。