词网络话题模型:短文本和不平衡文本的简单通用解决方案
我们提出了一种用于发现不均衡的短文本数据集中稀缺主题的简单解决方案,名为 CWUTM(基于共现词网络的不均衡短文本数据集的主题模型)。该方法通过减轻偶然词共现的影响来解决稀疏和不均衡的短文本主题的挑战。与以前的方法不同,CWUTM 利用共现词网络来捕捉每个单词的主题分布,并通过重新定义节点活动的计算和在一定程度上标准化稀缺和丰富主题的表示来增强对稀缺主题的敏感性。此外,CWUTM 采用了类似于 LDA 的 Gibbs 抽样方法,使其能够轻松适应各种应用场景。我们在不均衡的短文本数据集上进行了广泛的实验证实,证明了 CWUTM 在发现稀缺主题方面相比基准方法的优越性。根据实验结果,所提出的模型在社交平台上能够及早、准确地检测出新兴主题或意外事件。
Nov, 2023
提出了一种名为 TAN-NTM 的框架,该框架使用一种新颖的注意力机制,即关注主题相关线索的单词,将文档作为一个标记序列进行处理。该模型发现,利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用,尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上,相对于现有 SOTA 主题模型的 NPMI 一致性得分,我们进行了大量的削减和实验,结果证明我们的方法可以获得~9-15%的改善。此外,我们还证明了与现有一些主题模型相比,我们的方法通过潜在文档主题特征的提高,在文档分类和主题引导关键词生成等两个下游任务上表现更好。
Dec, 2020
在本论文中,我们采取了一种新的方法来解决短文本主题建模中的数据稀疏问题,通过利用现有的预训练语言模型将短文本扩展为更长的序列。此外,我们提供了一种简单的解决方案,通过扩展神经主题模型来减少预训练语言模型生成的与主题无关的噪声文本的影响。我们观察到我们的模型能够显著改善短文本主题建模的性能。在极度数据稀疏的情况下,对多个真实数据集进行的大量实验证明了我们的模型可以生成优质主题,胜过现有最先进的模型。
Oct, 2023
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
提出了一种新颖的短文本主题建模框架 Topic-Semantic Contrastive Topic Model (TSCTM),采用一种新的对比学习方法来丰富学习信号并缓解数据稀疏问题,该方法优于现有的基线模型,不受数据增强可用性限制,能够产生高质量的主题和主题分布。
Nov, 2022
通过使用大型语言模型 (LLMs) 进行主题建模的两种方法,即并行提示和顺序提示,本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战,并证明这些方法能够识别出比现有方法更连贯的主题,同时保持引发主题的多样性。此外,本研究发现所推断的主题充分涵盖了输入文本,而几乎没有产生虚构的主题。
Jun, 2024
我们提出了用于短文本分类的主题记忆网络,采用新颖的主题记忆机制来编码类别标签的潜在主题表示,实验结果表明,我们的模型在短文本分类方面优于现有模型,并生成连贯的主题。
Sep, 2018
本文提出了一种高斯混合神经主题模型(GMNTM),该模型将单词的顺序和句子的语义意义同时纳入了主题建模,实验结果表明,相比现有的主题建模方法,GMNTM 在困惑度、检索准确性和分类准确性方面获得了显著的改进。
Feb, 2015
Twitter 数据由于其形式和语言的不规整性,在当前的主题建模中很难处理。针对该问题,提出了基于 Twitter-Network(TN)主题建模方法,该方法结合文本和社交网络全面应用贝叶斯非参数方法。使用层级泊松 - 狄利克雷过程(PDP)进行文本建模和高斯随机函数模型进行社交网络建模。结果表明,TN 主题模型的灵活性使其明显优于现有的非参数模型,同时提供了作者兴趣、hashtag 分析等信息推断,以及进一步的应用,如作者推荐、自动主题标注和 hashtag 建议。
Sep, 2016