潜在狄利克雷分配的谱算法

Apr, 2012

A Spectral Algorithm for Latent Dirichlet Allocation

Animashree Anandkumar, Dean P. Foster, Daniel Hsu, Sham M. Kakade, Yi-Kai Liu

TL;DR提出了一种名为 ECA 的学习流程，基于低阶矩的光谱分解，它可以恢复多种混合模型的参数，并在仅使用三元统计时正确恢复主题概率向量和主题优先级，因此具有可扩展性。

Abstract

The problem of topic modeling can be seen as a generalization of the clustering problem, in that it posits that observations are generated due to multiple →

topic modeling clustering latent factors unsupervised learning spectral decomposition

发现论文，激发创造

一种可证明的基于 SVD 的算法，用于学习主导混合语料库中的主题

本文提出了一种具有高效性、准确性的 LDA 模型的推理算法，该算法使用 SVD 进行主题恢复，并考虑了实际情况下主题的特点，如抓关键词和主要混合分布的假设。

Oct, 2014

随机折叠变分贝叶斯推断用于潜在狄利克雷分配

该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法，能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。

May, 2013

监督式主题模型

介绍了一种新的统计模型 —— 监督潜在狄利克雷分配（SLDA），应用变分方法处理难以计算的后验期望，解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比，SLDA 有显著优势。

Mar, 2010

科学的相关主题模型

本文提出了相关话题模型（CTM），通过逻辑正态分布，展现留言比例的相关性，我们还推导出了适用于该模型的快速变分推理算法，并将其应用于 Science 1990-1999 年间发表的文章，数据集包括 57M 词，证明 CTM 比 LDA 拟合效果更好，并将其作为大型文本集成探索性工具。

Aug, 2007

信念传播学习主题模型

该研究提出了一种基于马尔可夫随机场框架下的因子图表示方法，实现了传统信念传播算法对隐含狄利克雷分配模型的近似推理和参数估计，该算法在速度和准确性方面均具有竞争力，并且可以成为基于 LDA 的话题模型的通用学习方案。

Sep, 2011

主题模型的平滑和推断

本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型，比较了多种学习算法，发现主要区别在于应用于计数的平滑量。在优化超参数时，算法性能的差异显著缩小，这使得我们能够选择计算效率高的方法来学习准确的主题模型。

May, 2012

一种高再现性和高准确度的自动化主题分类方法

通过比较 LDA 和社区检测算法的优缺点，该研究提出一种用于主题发现的新算法，可在英文维基百科大规模文章中展现层次结构，提高文本分析系统的可靠性。

Feb, 2014

潜在狄利克雷分配的稀疏随机推断

本文提出了一种混合算法，将稀疏 Gibbs 采样的效率与在线随机推断的可扩展性相结合，用于分析包含 120 万本书（330 亿词）的语料库，在多个 Bayesian 隐变量模型中具有广泛的推广能力。

Jun, 2012

SimLDA：主题模型评估工具

本文介绍了一种新的变分信息传递算法，名为 ALBU，用于在有限数据情况下识别 LDA 模型中的方面，并在推特和新闻组数据集上与 VB 算法进行比较，展示 ALBU 算法在小型数据集表现出更高精度的潜在分布学习能力。

Aug, 2022

无监督声学单元发现的潜在狄利克雷分配的时间扩展

本文介绍了一种扩展 LDA 模型的方法，利用马尔可夫链来建模时间信息，从而用于语音信号的无监督单元发现。与基本的 LDA 模型相比，扩展后的模型可以更好地描述相邻单元之间的关系，从而得到更好的语音单元划分结果。

Jun, 2022