SimLDA:主题模型评估工具
该研究提出了一种基于马尔可夫随机场框架下的因子图表示方法,实现了传统信念传播算法对隐含狄利克雷分配模型的近似推理和参数估计,该算法在速度和准确性方面均具有竞争力,并且可以成为基于 LDA 的话题模型的通用学习方案。
Sep, 2011
本文介绍了一种基于置信传播算法的主题模型工具包(TMBP),该工具包采用 MEX C++ / Matlab / Octave 实现,可用于 Windows 7 或 Linux 操作系统,其中包括学习基于 Latent Dirichlet allocation(LDA)的主题模型的 BP 算法,以及其他几种 BP 算法,有关源代码的信息请访问给定的链接。
Jan, 2012
提出了一种名为 ECA 的学习流程,基于低阶矩的光谱分解,它可以恢复多种混合模型的参数,并在仅使用三元统计时正确恢复主题概率向量和主题优先级,因此具有可扩展性。
Apr, 2012
本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型,比较了多种学习算法,发现主要区别在于应用于计数的平滑量。在优化超参数时,算法性能的差异显著缩小,这使得我们能够选择计算效率高的方法来学习准确的主题模型。
May, 2012
介绍了一种新的统计模型 —— 监督潜在狄利克雷分配(SLDA),应用变分方法处理难以计算的后验期望,解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比,SLDA 有显著优势。
Mar, 2010
本文提出了一种混合算法,将稀疏 Gibbs 采样的效率与在线随机推断的可扩展性相结合,用于分析包含 120 万本书(330 亿词)的语料库,在多个 Bayesian 隐变量模型中具有广泛的推广能力。
Jun, 2012
介绍了一种名为 AVITM 的新 topic model,用 autoencoded variational inference 解决了 Dirichlet 分布和 component collapsing 问题,并且推出了一种新的 topic model,ProdLDA,更容易解释。
Mar, 2017
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
通过比较 LDA 和社区检测算法的优缺点,该研究提出一种用于主题发现的新算法,可在英文维基百科大规模文章中展现层次结构,提高文本分析系统的可靠性。
Feb, 2014