SAP-sLDA：探索非结构化文本的可解释界面

Jul, 2023

SAP-sLDA：探索非结构化文本的可解释界面

SAP-sLDA: An Interpretable Interface for Exploring Unstructured Text

Charumathi Badrinath, Weiwei Pan, Finale Doshi-Velez

TL;DR通过低维投影对文本语料库进行探索是一种常见方法，我们提出了一种半监督的人类参与的基于 LDA 的方法，用于学习在低维投影中保留文档之间语义相关性的主题。

Abstract

A common way to explore text corpora is through low-dimensional projections of the documents, where one hopes that thematically similar documents will be clustered together in the projected space. However, popula

text corpora low-dimensional projections latent dirichlet allocation semantic relationships human-in-the-loop

发现论文，激发创造

一种高再现性和高准确度的自动化主题分类方法

通过比较 LDA 和社区检测算法的优缺点，该研究提出一种用于主题发现的新算法，可在英文维基百科大规模文章中展现层次结构，提高文本分析系统的可靠性。

Feb, 2014

监督式主题模型

介绍了一种新的统计模型 —— 监督潜在狄利克雷分配（SLDA），应用变分方法处理难以计算的后验期望，解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比，SLDA 有显著优势。

Mar, 2010

Graph-Sparse LDA：一种结构稀疏的主题模型

本文介绍了一种基于 Graph-Sparse LDA 的分层主题模型，能够在两个真实的生物医学数据集上恢复稀疏且可解释的主题摘要，同时达到最先进的预测性能。

Oct, 2014

主题模型的网络方法

采用随机块模型方法，针对主题建模中存在的问题，提出了一种更具通用性和原则性的框架，该框架能够自动检测主题数和分级群集单词和文档，从而比 LDA 在统计模型选择方面提供更好的主题模型。

Aug, 2017

潜在狄利克雷分配的谱算法

提出了一种名为 ECA 的学习流程，基于低阶矩的光谱分解，它可以恢复多种混合模型的参数，并在仅使用三元统计时正确恢复主题概率向量和主题优先级，因此具有可扩展性。

Apr, 2012

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023

随机折叠变分贝叶斯推断用于潜在狄利克雷分配

该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法，能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。

May, 2013

主题建模有何不足？（以及如何使用基于搜索的软件工程来解决问题）

研究通过使用 LDADE 方法，对潜在狄利克雷分配进行参数调整，以降低其对话题稳定性的影响，并通过研究 LDA 所引起的序列效应或话题稳定性问题，得出了结果表明使用 LDADE 的结果，其性能更佳，同时使用标准 LDA 的话题不稳定性应该被淘汰。

Aug, 2016

Topic2Vec: 学习主题的分布式表示

本文提出 Topic2Vec 方法，通过在语义向量空间中学习话题表示来替代概率的 LDA 表示，实验证明该方法取得了有意义的结果。

Jun, 2015

自动主题生成的分层潜在语义映射

本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法，它可以自动从语料库中生成主题，并使用单词之间的关联和层次生成主题网络。实验表明，相比于现有的一些最先进的方法，HLSM 在几个文档集合上表现良好。

Nov, 2015