具有可证明保障的主题建模实用算法

该论文提出了一种基于合成语料库的新框架，用于评估概率主题建模算法，通过比较标记在标记级别上的指定主题标签，能够量化种植和推断主题结构之间的一致性。通过实验，揭示了主题模型的相对强度随语料库特征变化的新见解，并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。

Jan, 2019

主题建模方法在排名中的应用

我们提出了一种基于主题建模的方法来预测配对比较中的偏好，该方法利用新的生成模型来捕获预测人群中多种共享潜在排名以及自然的不一致性，并将潜在排名的估计形式地归约为相当于统计模型中的话题建模问题，在此基础上利用相关领域的新进展开发了一个算法，该算法可以以可证明的一致性、样本和计算复杂度的保证学习共享的潜在排名，并在一些半合成和真实世界数据集上证明了与当前最先进方法在预测偏好方面的实证竞争力。

Dec, 2014

主题建模的估计和选择

通过非标准的参数化最大后验概率估计，基于块对角矩阵逼近提出了一种基于似然函数的模型选择方法，同时辅以残差离散度估计来度量模型的拟合程度，并提供了实例来说明模型选择和与标准技术的比较。

Sep, 2011

具有最小最大保证的快速算法用于未知主题数量的主题模型

我们提出了一种新的主题模型估计方法，可以从观察到的数据中估计出主题数量 K，并在任意文档数量、单个文档长度、字典大小和主题数量的情况下实现了最小极小值下限和最新的上限估计。同时，在模拟研究中我们展示了这种新算法比现有的算法更快更准确。

May, 2018

神经变分推断下的离散隐变量主题挖掘

这篇论文介绍了神经方法在主题建模中的应用，特别是提供可参数化分布以允许可变参数下的后向传播，同时提出了一种递归网络，能够类似于贝叶斯非参数主题模型发现数量概念上无限的主题，在 MXM Song Lyrics，20NewsGroups 和 Reuters News 数据集上得到了实验结果的证明。

Jun, 2017

几何狄利克雷均值算法用于主题推断

本文介绍了一种几何算法，可将潜在狄利克雷分配（LDA）模型及其非参数扩展中产生的主题的凸几何用于主题学习和推断，并提出了一种优化几何损失函数的方法，它是 LDA 的似然函数的替代方法。该方法通过基于加权聚类的快速优化过程并辅以几何校正来克服其他基于 Gibbs 采样和变分推断的技术所遇到的计算和统计效率低下的问题，同时具有与 Gibbs 采样相当的准确性。通过模拟和实际数据的大量实验，证明了我们方法产生的主题估计在某些条件下是统计一致的。

Oct, 2016