基于合成语料的主题建模算法新评估框架

Jan, 2019

基于合成语料的主题建模算法新评估框架

A new evaluation framework for topic modeling algorithms based on synthetic corpora

Hanyu Shi, Martin Gerlach, Isabel Diersen, Doug Downey, Luis A. N. Amaral

TL;DR该论文提出了一种基于合成语料库的新框架，用于评估概率主题建模算法，通过比较标记在标记级别上的指定主题标签，能够量化种植和推断主题结构之间的一致性。通过实验，揭示了主题模型的相对强度随语料库特征变化的新见解，并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。

Abstract

topic models are in widespread use in natural language processing and beyond. Here, we propose a new framework for the evaluation of probabilistic topic modeling algorithms based on →

topic models evaluation probabilistic algorithms synthetic corpora ground truth

发现论文，激发创造

一种修改后的模型用于从语料库中检测主题并评估主题可理解性的新指标

本文提出了一种修改后的神经模型以检测语料库中主题，并提出了一种新的度量标准来评估检测到的主题。这个新模型建立在嵌入式主题模型的基础上，加入了一些修改，例如文档聚类。数值实验表明，新模型表现良好，而且无论文档的长度如何都表现良好。可以更有效地计算新度量标准，与主题连贯性等广泛使用的度量标准相比，提供了有关检测到的主题可理解性的可变信息。

Jun, 2023

超越自动化评估指标：在实践中评估主题模型在社会科学内容分析任务上的能力

通过对话题模型进行评估，发现神经网络模型（NTMs）在实际任务中的效果优于传统模型，且自动评估指标无法提供全面的话题建模能力。

Jan, 2024

发现一个随时间演化的文档语料库的主题结构

本文提出一种基于离散化时间的 epochs、使用层次狄利克雷过程的话题发现，以及可以建模复杂话题变化的时间相似性图的新框架，实验表明该算法能够准确捕捉医学文献语料库的发展和演变。

Dec, 2015

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023

语料库结构、语言模型和即席信息检索

本文提出了一种基于语言模型的信息检索算法框架的新方法，并将类似文档群的信息整合进去以提高检索效果；实验结果表明，即使是此新方法中的较简单算法也能优于标准语言模型方法，并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。

May, 2004

主题模型的稳定性分析，需要多少主题？

本文提出了一种基于术语稳定性分析策略的主题建模方法，该方法基于矩阵分解的主题建模方法在一系列语料库上得到验证，可以成功指导模型选择过程。

Apr, 2014

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

协同主题建模

我们提出了一种名为 “协调主题建模” 的新问题，旨在通过复用现有知识来更加可解释地表示语料库，并设计了一种基于嵌入式的协调主题模型（ECTM），该模型通过引入主题和文档级别的监督和自训练机制来解决此问题，并在多个领域进行的广泛实验表明我们的模型优于其他基线。

Oct, 2022

G2T：基于预训练语言模型和社区检测的主题建模简单通用框架

本文提出了一种名为图向话题（G2T）的框架，该框架能够使用预训练语言模型获取文档表示，并通过语义图和社区检测等方法进行主题建模。自动评估结果表明，G2T 在英文和中文文档上均取得了最优表现，并且比基线模型产生了更好的可解释性和覆盖范围。

Apr, 2023

主题模型的网络方法

采用随机块模型方法，针对主题建模中存在的问题，提出了一种更具通用性和原则性的框架，该框架能够自动检测主题数和分级群集单词和文档，从而比 LDA 在统计模型选择方面提供更好的主题模型。

Aug, 2017