深度潜在位置主题模型用于文本边网络的聚类和表示
本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架,通过联合建模主题 - 单词和文档 - 主题分布,有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
我们提出了 Transformer-Representation Neural Topic Model (TNTM),它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合,利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性,实验结果表明,我们提出的模型在嵌入连贯性方面达到了各种最先进方法的结果,并且保持了几乎完美的主题多样性。
Mar, 2024
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本文提出了一种名为 ctx-DocNADE 的新颖的神经自回归主题模型,将 TM 和 LM 的两种学习词出现意义的学习范例组合在一起,通过嵌入词静态信息的输入,显著改善了小语料库和短文本中的词 - 主题映射,并在不同领域的 6 个长文本和 8 个短文本数据集上展示出了优越的泛化能力、可解释性和适用性。
Oct, 2018
本文介绍了标签索引神经主题模型(LI-NTM),它是迄今为止首个有效的上游半监督神经主题模型,并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型,此外,通过消融研究发现,我们共同学习的分类器优于基线分类器。
Apr, 2022
该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型,通过向每个时间步长中的嵌入表示赋值主题,该模型能够学习到平滑的主题轨迹,并在三个不同的语料库上发现,在文档完成任务中,该模型优于动态 LDA,而且比 LDA 更易于训练。
Jul, 2019
使用大型语言模型,我们发现它们能够生成结构完整且连贯的长文本,表明虽然这些模型是基于下一个词的预测进行训练的,但它们必须表示文档的潜在结构。本文研究了潜在主题结构作为文档结构的互补方面,通过将大型语言模型优化与隐性贝叶斯推断相连接来验证我们的假设。我们通过拉普拉斯诱导的神经概率编码机制与连续下降信息论方法推导出来自大型语言模型的统计学抽象,进而通过推导来自大型语言模型的统计学抽象。
Dec, 2023
本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法,它可以自动从语料库中生成主题,并使用单词之间的关联和层次生成主题网络。实验表明,相比于现有的一些最先进的方法,HLSM 在几个文档集合上表现良好。
Nov, 2015