主题建模的估计和选择

Sep, 2011

On Estimation and Selection for Topic Models

Matthew A. Taddy

TL;DR通过非标准的参数化最大后验概率估计，基于块对角矩阵逼近提出了一种基于似然函数的模型选择方法，同时辅以残差离散度估计来度量模型的拟合程度，并提供了实例来说明模型选择和与标准技术的比较。

Abstract

This article describes posterior maximization for topic models, identifying computational and conceptual gains from inference under a non-standard parametrization. We then show that fitted parameters can be used

posterior maximization topic models marginal likelihood estimation latent topics goodness-of-fit analysis

发现论文，激发创造

主题模型的平滑和推断

本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型，比较了多种学习算法，发现主要区别在于应用于计数的平滑量。在优化超参数时，算法性能的差异显著缩小，这使得我们能够选择计算效率高的方法来学习准确的主题模型。

May, 2012

关于主题模型变分推断的一些可证明正确的案例

本文针对潜变量模型中的主题模型，首次给出了变分推理算法收敛于全局最优解的分析，也证明了在主题 - 词矩阵和主题先验的自然假设下，变分推理可有效学习主题模型的最优参数。

Mar, 2015

在扩展限制下学习主题模型和潜在贝叶斯网络

本文提出了一个基于二阶可观测矩的无监督估计潜变量模型的方法，包括概率主题模型和潜线性贝叶斯网络等广泛的模型，且不需要对潜变量的分布做出任何假设，可以处理主题或潜因子之间的任意相关性，并且提出了一个可行的学习方法通过 L1 优化在数值实验中进行了研究。

Sep, 2012

通过稀疏极大似然估计进行模型选择

使用加入 l1-norm 惩罚项的最大似然问题的解决办法来估计高斯或二元分布参数，以得到稀疏的无向图模型，并利用块坐标下降和 Nesterov's 一阶法等算法将复杂度限制在可接受范围内。

Jul, 2007

主题模型推断的可证算法

介绍了一种利用主题模型构建线性估算器为推理设计可证明算法的方法。

May, 2016

使用近似边缘推断学习图模型参数

本文研究直接拟合参数以最大化预测边际准确性度量的方法，该方法考虑训练时间模型和推理近似。对成像问题的实验表明，边际化学习在拟合的模型近似的困难问题上比似然近似表现更好。

Jan, 2013

变分贝叶斯推断潜变量模型的参数和结构

本文提出了变分贝叶斯 (Variational Bayes) 框架，通过解决概率图模型中潜在变量及其结构计算的问题，避免了因参数而导致过拟合和子最优泛化表现的通常方法，同时证明了该算法能成功应用于无监督聚类、盲源分离等模型。

Jan, 2013

具有可证明保障的主题建模实用算法

本文介绍了一种既可证明有效，又实用的主题模型推断算法，可用于降维、探索性数据分析，速度较之前的 MCMC 算法快得多。

Dec, 2012

神经变分推断下的离散隐变量主题挖掘

这篇论文介绍了神经方法在主题建模中的应用，特别是提供可参数化分布以允许可变参数下的后向传播，同时提出了一种递归网络，能够类似于贝叶斯非参数主题模型发现数量概念上无限的主题，在 MXM Song Lyrics，20NewsGroups 和 Reuters News 数据集上得到了实验结果的证明。

Jun, 2017

变分贝叶斯统计最优性

本文研究了使用变分贝叶斯方法进行参数估计的合理性问题，并提供了获得基于点估计的最优风险界的一般条件。这些条件涉及参数空间上距离度量的某些测试函数的存在以及对先验的最小假设。本文概述了验证这些条件的一般步骤，这对具有或没有潜变量的现有贝叶斯模型广泛适用。同时，具体应用于潜在狄利克雷分配和高斯混合模型的过程也作了讨论。

Dec, 2017