本文提出了一种基于序列到序列神经网络的方法,用于为主题生成描述性标签,同时使用合成的数据集进行训练和测试,并通过与人工标注的标签进行比较评估该方法。
May, 2020
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
我们提出了一种名为 “协调主题建模” 的新问题,旨在通过复用现有知识来更加可解释地表示语料库,并设计了一种基于嵌入式的协调主题模型(ECTM),该模型通过引入主题和文档级别的监督和自训练机制来解决此问题,并在多个领域进行的广泛实验表明我们的模型优于其他基线。
Oct, 2022
本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统,以帮助用户针对具体目标进行大规模文档检索,包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。
Jul, 2019
TopicGPT 是一种基于提示的框架,利用大型语言模型 (LLMs) 在提供的文本集合中揭示潜在主题,其主题与人类分类更吻合,并且更易于解释,同时还具有高度适应性,可以在不需要重新训练模型的情况下指定约束条件和修改主题。TopicGPT 通过简化获得高质量且易于解释的主题,代表了一种引人注目的以人为中心的主题建模方法。
Nov, 2023
本文提出了一种基于术语稳定性分析策略的主题建模方法,该方法基于矩阵分解的主题建模方法在一系列语料库上得到验证,可以成功指导模型选择过程。
Apr, 2014
我们提出了 PromptTopic,一种利用大型语言模型的先进语言理解能力从句子级别提取主题并将其汇总和压缩为预定数量的主题,从而消除了手动参数调整的需求并提高了提取主题的质量。我们在三个完全不同的数据集上与最先进的基线模型进行了比较,并展示了 PromptTopic 在发现有意义的主题方面的能力。此外,定性分析展示了 PromptTopic 在多个数据集中发现相关主题的能力。
Dec, 2023
该论文介绍了一种神经主题模型 TopicAdapt,可以从一个相关的源语料库中适应相关主题,并在目标语料库中发现源语料库中缺失的新主题,实验结果表明,该模型在多个领域的多个数据集上表现优于现有的主题模型。
Oct, 2023
该研究介绍了一种将传统主题建模方法的输出扩展到除了独立的令牌列表之外的新方法,通过提取高评分的关键词,并将其映射到主题模型的令牌输出,提高其可解释性。
Jan, 2024