通过比较 LDA 和社区检测算法的优缺点,该研究提出一种用于主题发现的新算法,可在英文维基百科大规模文章中展现层次结构,提高文本分析系统的可靠性。
Feb, 2014
介绍了一种新的统计模型 —— 监督潜在狄利克雷分配(SLDA),应用变分方法处理难以计算的后验期望,解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比,SLDA 有显著优势。
Mar, 2010
本文介绍了一种基于 Graph-Sparse LDA 的分层主题模型,能够在两个真实的生物医学数据集上恢复稀疏且可解释的主题摘要,同时达到最先进的预测性能。
Oct, 2014
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
提出了一种名为 ECA 的学习流程,基于低阶矩的光谱分解,它可以恢复多种混合模型的参数,并在仅使用三元统计时正确恢复主题概率向量和主题优先级,因此具有可扩展性。
Apr, 2012
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出优秀的性能结果。
Mar, 2023
该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法,能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。
May, 2013
研究通过使用 LDADE 方法,对潜在狄利克雷分配进行参数调整,以降低其对话题稳定性的影响,并通过研究 LDA 所引起的序列效应或话题稳定性问题,得出了结果表明使用 LDADE 的结果,其性能更佳,同时使用标准 LDA 的话题不稳定性应该被淘汰。
Aug, 2016
本文提出 Topic2Vec 方法,通过在语义向量空间中学习话题表示来替代概率的 LDA 表示,实验证明该方法取得了有意义的结果。
Jun, 2015
本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法,它可以自动从语料库中生成主题,并使用单词之间的关联和层次生成主题网络。实验表明,相比于现有的一些最先进的方法,HLSM 在几个文档集合上表现良好。
Nov, 2015