融合词嵌入的短文本主题建模

Sep, 2016

Topic Modeling over Short Texts by Incorporating Word Embeddings

Jipeng Qiang, Ping Chen, Tong Wang, Xindong Wu

TL;DR本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Abstract

Inferring topics from the overwhelming amount of short texts becomes a critical but challenging task for many content analysis tasks, such as content charactering, user interest profiling, and emerging topic dete

topic modeling word embedding markov random field short texts content analysis

发现论文，激发创造

关键词辅助的嵌入式主题模型

本文提出了关键词辅助嵌入式主题模型（KeyETM)，它使嵌入式主题模型（ETM）得以利用用户先前领域知识中的信息，从而在量化指标和主题干扰任务的实验中展现了优秀的表现，而不仅仅是将话题模型作为无监督模型。

Nov, 2021

利用预训练语言模型进行短文本主题建模

在本论文中，我们采取了一种新的方法来解决短文本主题建模中的数据稀疏问题，通过利用现有的预训练语言模型将短文本扩展为更长的序列。此外，我们提供了一种简单的解决方案，通过扩展神经主题模型来减少预训练语言模型生成的与主题无关的噪声文本的影响。我们观察到我们的模型能够显著改善短文本主题建模的性能。在极度数据稀疏的情况下，对多个真实数据集进行的大量实验证明了我们的模型可以生成优质主题，胜过现有最先进的模型。

Oct, 2023

短文本主题建模技术、应用和表现：一项调查

本研究评论现有短文本主题建模算法，分为三类，并展示了所有算法的统一接口、基准数据集和性能评估。

Apr, 2019

嵌入空间中的主题建模

本研究提出了一种新的主题模型，嵌入式主题模型（ETM），通过将传统的主题模型与词嵌入技术相结合，成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外，研究还开发了高效的变分推理算法来拟合 ETM 进行预测。

Jul, 2019

大型语言模型下的短文本主题建模

通过使用大型语言模型 (LLMs) 进行主题建模的两种方法，即并行提示和顺序提示，本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战，并证明这些方法能够识别出比现有方法更连贯的主题，同时保持引发主题的多样性。此外，本研究发现所推断的主题充分涵盖了输入文本，而几乎没有产生虚构的主题。

Jun, 2024

动态嵌入主题模型

该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型，通过向每个时间步长中的嵌入表示赋值主题，该模型能够学习到平滑的主题轨迹，并在三个不同的语料库上发现，在文档完成任务中，该模型优于动态 LDA，而且比 LDA 更易于训练。

Jul, 2019

预训练语言模型表示的潜空间聚类进行主题发现

本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架，通过联合建模主题 - 单词和文档 - 主题分布，有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征，并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题，并提供更好的基于主题的文档表达形式。

Feb, 2022

增强短文本建模：利用大型语言模型进行主题细化

利用大型语言模型对主题进行细化改进，从而显著提高主题的语义连贯性。

Mar, 2024

联合学习词嵌入和潜在主题

该研究提出了一个名为 STE 的框架，可以以统一的方式学习词嵌入和潜在主题，从而解决多义问题，并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。

Jun, 2017

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023