本文提出了一种混合算法,将稀疏 Gibbs 采样的效率与在线随机推断的可扩展性相结合,用于分析包含 120 万本书(330 亿词)的语料库,在多个 Bayesian 隐变量模型中具有广泛的推广能力。
Jun, 2012
该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法,能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。
May, 2013
本文针对潜变量模型中的主题模型,首次给出了变分推理算法收敛于全局最优解的分析,也证明了在主题 - 词矩阵和主题先验的自然假设下,变分推理可有效学习主题模型的最优参数。
Mar, 2015
介绍了一种新的统计模型 —— 监督潜在狄利克雷分配(SLDA),应用变分方法处理难以计算的后验期望,解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比,SLDA 有显著优势。
Mar, 2010
介绍了一种利用主题模型构建线性估算器为推理设计可证明算法的方法。
May, 2016
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
本文研究的是 Latent Dirichlet Allocation 模型的一个变体,将文档混合比重置为 squashed Gaussian 分布,从而实现对以时间、空间、层次结构、社交等方面为特征的文档的建模,同时提出了一个基于 Laplace 近似的转化基础的近似算法以便对隐藏的高斯分布进行有效的近似推断。该 KTM 模型也可以被解释为一种 Gaussian 过程潜变量模型,或基于文档特征的主题模型,在发掘这些领域的早期工作的联系时非常有用。
Oct, 2011
该研究提出了一种基于马尔可夫随机场框架下的因子图表示方法,实现了传统信念传播算法对隐含狄利克雷分配模型的近似推理和参数估计,该算法在速度和准确性方面均具有竞争力,并且可以成为基于 LDA 的话题模型的通用学习方案。
Sep, 2011
本文提出了相关话题模型(CTM),通过逻辑正态分布,展现留言比例的相关性,我们还推导出了适用于该模型的快速变分推理算法,并将其应用于 Science 1990-1999 年间发表的文章,数据集包括 57M 词,证明 CTM 比 LDA 拟合效果更好,并将其作为大型文本集成探索性工具。
Aug, 2007
本文介绍了一种几何算法,可将潜在狄利克雷分配(LDA)模型及其非参数扩展中产生的主题的凸几何用于主题学习和推断,并提出了一种优化几何损失函数的方法,它是 LDA 的似然函数的替代方法。该方法通过基于加权聚类的快速优化过程并辅以几何校正来克服其他基于 Gibbs 采样和变分推断的技术所遇到的计算和统计效率低下的问题,同时具有与 Gibbs 采样相当的准确性。通过模拟和实际数据的大量实验,证明了我们方法产生的主题估计在某些条件下是统计一致的。
Oct, 2016