介绍了一种利用主题模型构建线性估算器为推理设计可证明算法的方法。
May, 2016
本文针对潜变量模型中的主题模型,首次给出了变分推理算法收敛于全局最优解的分析,也证明了在主题 - 词矩阵和主题先验的自然假设下,变分推理可有效学习主题模型的最优参数。
Mar, 2015
本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型,比较了多种学习算法,发现主要区别在于应用于计数的平滑量。在优化超参数时,算法性能的差异显著缩小,这使得我们能够选择计算效率高的方法来学习准确的主题模型。
May, 2012
该研究开发了一种新的、能够实现概率混合共享潜在因素发现主题的算法,针对包含唯一新单词的共享潜在因素的主题模型,利用几何分析实现了高效计算和分布式数据挖掘应用。
Aug, 2015
该论文提出了一种基于合成语料库的新框架,用于评估概率主题建模算法,通过比较标记在标记级别上的指定主题标签,能够量化种植和推断主题结构之间的一致性。通过实验,揭示了主题模型的相对强度随语料库特征变化的新见解,并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。
Jan, 2019
我们提出了一种基于主题建模的方法来预测配对比较中的偏好,该方法利用新的生成模型来捕获预测人群中多种共享潜在排名以及自然的不一致性,并将潜在排名的估计形式地归约为相当于统计模型中的话题建模问题,在此基础上利用相关领域的新进展开发了一个算法,该算法可以以可证明的一致性、样本和计算复杂度的保证学习共享的潜在排名,并在一些半合成和真实世界数据集上证明了与当前最先进方法在预测偏好方面的实证竞争力。
Dec, 2014
通过非标准的参数化最大后验概率估计,基于块对角矩阵逼近提出了一种基于似然函数的模型选择方法,同时辅以残差离散度估计来度量模型的拟合程度,并提供了实例来说明模型选择和与标准技术的比较。
Sep, 2011
我们提出了一种新的主题模型估计方法,可以从观察到的数据中估计出主题数量 K,并在任意文档数量、单个文档长度、字典大小和主题数量的情况下实现了最小极小值下限和最新的上限估计。同时,在模拟研究中我们展示了这种新算法比现有的算法更快更准确。
May, 2018
这篇论文介绍了神经方法在主题建模中的应用,特别是提供可参数化分布以允许可变参数下的后向传播,同时提出了一种递归网络,能够类似于贝叶斯非参数主题模型发现数量概念上无限的主题,在 MXM Song Lyrics,20NewsGroups 和 Reuters News 数据集上得到了实验结果的证明。
Jun, 2017
本文介绍了一种几何算法,可将潜在狄利克雷分配(LDA)模型及其非参数扩展中产生的主题的凸几何用于主题学习和推断,并提出了一种优化几何损失函数的方法,它是 LDA 的似然函数的替代方法。该方法通过基于加权聚类的快速优化过程并辅以几何校正来克服其他基于 Gibbs 采样和变分推断的技术所遇到的计算和统计效率低下的问题,同时具有与 Gibbs 采样相当的准确性。通过模拟和实际数据的大量实验,证明了我们方法产生的主题估计在某些条件下是统计一致的。
Oct, 2016