主题建模:超越标记输出
提出了一种新的查询驱动主题模型,可以允许用户指定一个简单的查询,并返回相关的主题,从而避免了领域专家的繁琐工作。实验结果表明,该模型相比于传统和神经主题模型更加有效。
May, 2021
我们提出了 PromptTopic,一种利用大型语言模型的先进语言理解能力从句子级别提取主题并将其汇总和压缩为预定数量的主题,从而消除了手动参数调整的需求并提高了提取主题的质量。我们在三个完全不同的数据集上与最先进的基线模型进行了比较,并展示了 PromptTopic 在发现有意义的主题方面的能力。此外,定性分析展示了 PromptTopic 在多个数据集中发现相关主题的能力。
Dec, 2023
本文介绍了一种基于关键词属性的特异性评分方法,用于评估主题模型算法并选择最具信息的主题,结果表明这种方法可在信息损失更低的情况下压缩不同因素的最新主题建模结果。
Mar, 2022
该研究提出了一种方法,通过对句子和文档的主题进行深入理解,不仅分析数据中的词频,而且可以检测包括非常见词或新词在内的潜在主题,还使用了基于语义空间的异类词和相似性度量等新的评价指标,并通过与人工识别相似性度量的相关系数,在文本挖掘方面展现出优秀的性能结果。
Mar, 2023
本研究旨在探讨大型语言模型(LLMs)在主题提取方面的潜力,并建立评估协议以评估 LLMs 的聚类效果。通过深入实验与评估,总结了采用 LLMs 进行主题提取的优势和限制。
Mar, 2024
该研究使用了 KernelPCA 和 K-means Clustering 结合 BERTopic 架构,比较了主题建模方法,并在尼日利亚银行客户的推文数据集上展示了一致性得分为 0.8463 的连贯主题。
Feb, 2024
TopicGPT 是一种基于提示的框架,利用大型语言模型 (LLMs) 在提供的文本集合中揭示潜在主题,其主题与人类分类更吻合,并且更易于解释,同时还具有高度适应性,可以在不需要重新训练模型的情况下指定约束条件和修改主题。TopicGPT 通过简化获得高质量且易于解释的主题,代表了一种引人注目的以人为中心的主题建模方法。
Nov, 2023