MetaLDA:一种高效融合元信息的主题模型
通过比较 LDA 和社区检测算法的优缺点,该研究提出一种用于主题发现的新算法,可在英文维基百科大规模文章中展现层次结构,提高文本分析系统的可靠性。
Feb, 2014
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本文介绍了一种基于 Graph-Sparse LDA 的分层主题模型,能够在两个真实的生物医学数据集上恢复稀疏且可解释的主题摘要,同时达到最先进的预测性能。
Oct, 2014
我们介绍了作者 - 主题模型,它是一种生成文档的模型,扩展了隐含狄利克雷分配(LDA),包括作者信息,应用于 NIPS 会议论文和 CiteSeer 摘要,具有估算主题和作者分布的 Gibbs 采样基础上的性能比较。
Jul, 2012
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
通过使用生成模型、利用元数据和合成训练样本,提出了一个文本分类方法 MetaCat,成功地解决了分类中存在的两个问题:元数据的使用和少量标注样本数据的问题。在多个数据集上验证实验,证明了该方法的有效性。
May, 2020
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
基于软聚类和文档嵌入的模糊主题建模对比传统的 Latent Dirichlet Allocation(LDA)模型,在新闻发布监测中,得到了更加自然的结果。
Sep, 2023
本研究介绍了 lda2vec 模型,它可以联合学习文档层次上主题向量的 Dirichlet 分布与密集的单词向量,并且相对于连续的密集文档表示,可以产生更稀疏、可解释的文档混合分布。
May, 2016