主题建模：超越标记输出

Jan, 2024

Topic Modelling: Going Beyond Token Outputs

Lowri Williams, Eirini Anthi, Laura Arman, Pete Burnap

TL;DR该研究介绍了一种将传统主题建模方法的输出扩展到除了独立的令牌列表之外的新方法，通过提取高评分的关键词，并将其映射到主题模型的令牌输出，提高其可解释性。

Abstract

topic modelling is a text mining technique for identifying salient themes from a number of documents. The output is commonly a set of topics consisting of isolated tokens that often co-occur in such documents. Manual effort is often associated with →

topic modelling interpreting topic descriptions interpretability traditional topic modelling methods

发现论文，激发创造

主题标签的自动生成

本文提出了一种基于序列到序列神经网络的方法，用于为主题生成描述性标签，同时使用合成的数据集进行训练和测试，并通过与人工标注的标签进行比较评估该方法。

May, 2020

基于查询的主题模型

提出了一种新的查询驱动主题模型，可以允许用户指定一个简单的查询，并返回相关的主题，从而避免了领域专家的繁琐工作。实验结果表明，该模型相比于传统和神经主题模型更加有效。

May, 2021

大型语言模型用于主题建模

我们提出了 PromptTopic，一种利用大型语言模型的先进语言理解能力从句子级别提取主题并将其汇总和压缩为预定数量的主题，从而消除了手动参数调整的需求并提高了提取主题的质量。我们在三个完全不同的数据集上与最先进的基线模型进行了比较，并展示了 PromptTopic 在发现有意义的主题方面的能力。此外，定性分析展示了 PromptTopic 在多个数据集中发现相关主题的能力。

Dec, 2023

主题模型的稳定性分析，需要多少主题？

本文提出了一种基于术语稳定性分析策略的主题建模方法，该方法基于矩阵分解的主题建模方法在一系列语料库上得到验证，可以成功指导模型选择过程。

Apr, 2014

基于关键词属性的主题分析增强

本文介绍了一种基于关键词属性的特异性评分方法，用于评估主题模型算法并选择最具信息的主题，结果表明这种方法可在信息损失更低的情况下压缩不同因素的最新主题建模结果。

Mar, 2022

主题建模与深度神经网络：一项调查

本文介绍了神经主题模型研究的最新进展和发展方向，旨在为 AI 社区中的研究人员提供一个全面的概述以促进其在这一快速发展研究领域中进行创新。

Feb, 2021

稻草堆中的话题：超越一致性的话题提取和评估

该研究提出了一种方法，通过对句子和文档的主题进行深入理解，不仅分析数据中的词频，而且可以检测包括非常见词或新词在内的潜在主题，还使用了基于语义空间的异类词和相似性度量等新的评价指标，并通过与人工识别相似性度量的相关系数，在文本挖掘方面展现出优秀的性能结果。

Mar, 2023

大型语言模型为传统主题建模方法提供了一种替代方案

本研究旨在探讨大型语言模型（LLMs）在主题提取方面的潜力，并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估，总结了采用 LLMs 进行主题提取的优势和限制。

Mar, 2024

银行领域的主题建模方法比较

该研究使用了 KernelPCA 和 K-means Clustering 结合 BERTopic 架构，比较了主题建模方法，并在尼日利亚银行客户的推文数据集上展示了一致性得分为 0.8463 的连贯主题。

Feb, 2024

TopicGPT：一种基于提示的主题建模框架

TopicGPT 是一种基于提示的框架，利用大型语言模型 (LLMs) 在提供的文本集合中揭示潜在主题，其主题与人类分类更吻合，并且更易于解释，同时还具有高度适应性，可以在不需要重新训练模型的情况下指定约束条件和修改主题。TopicGPT 通过简化获得高质量且易于解释的主题，代表了一种引人注目的以人为中心的主题建模方法。

Nov, 2023