主题模型的平滑和推断

May, 2012

On Smoothing and Inference for Topic Models

Arthur Asuncion, Max Welling, Padhraic Smyth, Yee Whye Teh

TL;DR本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型，比较了多种学习算法，发现主要区别在于应用于计数的平滑量。在优化超参数时，算法性能的差异显著缩小，这使得我们能够选择计算效率高的方法来学习准确的主题模型。

Abstract

latent dirichlet analysis, or topic modeling, is a flexible latent variable framework for modeling high-dimensional sparse count data. Various learning algorithms have been developed in recent years, including co

latent dirichlet analysis topic modeling gibbs sampling variational inference posteriori estimation

发现论文，激发创造

潜在狄利克雷分配的稀疏随机推断

本文提出了一种混合算法，将稀疏 Gibbs 采样的效率与在线随机推断的可扩展性相结合，用于分析包含 120 万本书（330 亿词）的语料库，在多个 Bayesian 隐变量模型中具有广泛的推广能力。

Jun, 2012

随机折叠变分贝叶斯推断用于潜在狄利克雷分配

该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法，能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。

May, 2013

关于主题模型变分推断的一些可证明正确的案例

本文针对潜变量模型中的主题模型，首次给出了变分推理算法收敛于全局最优解的分析，也证明了在主题 - 词矩阵和主题先验的自然假设下，变分推理可有效学习主题模型的最优参数。

Mar, 2015

监督式主题模型

介绍了一种新的统计模型 —— 监督潜在狄利克雷分配（SLDA），应用变分方法处理难以计算的后验期望，解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比，SLDA 有显著优势。

Mar, 2010

主题模型推断的可证算法

介绍了一种利用主题模型构建线性估算器为推理设计可证明算法的方法。

May, 2016

主题模型的网络方法

采用随机块模型方法，针对主题建模中存在的问题，提出了一种更具通用性和原则性的框架，该框架能够自动检测主题数和分级群集单词和文档，从而比 LDA 在统计模型选择方面提供更好的主题模型。

Aug, 2017

核主题模型

本文研究的是 Latent Dirichlet Allocation 模型的一个变体，将文档混合比重置为 squashed Gaussian 分布，从而实现对以时间、空间、层次结构、社交等方面为特征的文档的建模，同时提出了一个基于 Laplace 近似的转化基础的近似算法以便对隐藏的高斯分布进行有效的近似推断。该 KTM 模型也可以被解释为一种 Gaussian 过程潜变量模型，或基于文档特征的主题模型，在发掘这些领域的早期工作的联系时非常有用。

Oct, 2011

信念传播学习主题模型

该研究提出了一种基于马尔可夫随机场框架下的因子图表示方法，实现了传统信念传播算法对隐含狄利克雷分配模型的近似推理和参数估计，该算法在速度和准确性方面均具有竞争力，并且可以成为基于 LDA 的话题模型的通用学习方案。

Sep, 2011

科学的相关主题模型

本文提出了相关话题模型（CTM），通过逻辑正态分布，展现留言比例的相关性，我们还推导出了适用于该模型的快速变分推理算法，并将其应用于 Science 1990-1999 年间发表的文章，数据集包括 57M 词，证明 CTM 比 LDA 拟合效果更好，并将其作为大型文本集成探索性工具。

Aug, 2007

几何狄利克雷均值算法用于主题推断

本文介绍了一种几何算法，可将潜在狄利克雷分配（LDA）模型及其非参数扩展中产生的主题的凸几何用于主题学习和推断，并提出了一种优化几何损失函数的方法，它是 LDA 的似然函数的替代方法。该方法通过基于加权聚类的快速优化过程并辅以几何校正来克服其他基于 Gibbs 采样和变分推断的技术所遇到的计算和统计效率低下的问题，同时具有与 Gibbs 采样相当的准确性。通过模拟和实际数据的大量实验，证明了我们方法产生的主题估计在某些条件下是统计一致的。

Oct, 2016