本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本研究提出了一种新的主题模型,嵌入式主题模型(ETM),通过将传统的主题模型与词嵌入技术相结合,成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外,研究还开发了高效的变分推理算法来拟合 ETM 进行预测。
Jul, 2019
该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型,通过向每个时间步长中的嵌入表示赋值主题,该模型能够学习到平滑的主题轨迹,并在三个不同的语料库上发现,在文档完成任务中,该模型优于动态 LDA,而且比 LDA 更易于训练。
提出了一种新方法:基于类别树描述的文本语料库的层次话题挖掘,通过开发一种新的联合树和文本嵌入方法,同时建模类别树结构和语料库生成过程来实现有效的层次话题挖掘,发现代表性词。该方法具有高效的性能和弱监督下的分类任务性能优势。
Jul, 2020
本文介绍了一个基于多层生成模型的主题模型深度架构,通过该模型可发现可解释的主题层级结构,对于提高主题模型的建模精度和可解释性具有显著作用。
Nov, 2018
本文介绍了标签索引神经主题模型(LI-NTM),它是迄今为止首个有效的上游半监督神经主题模型,并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型,此外,通过消融研究发现,我们共同学习的分类器优于基线分类器。
Apr, 2022
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
本文研究的是 Latent Dirichlet Allocation 模型的一个变体,将文档混合比重置为 squashed Gaussian 分布,从而实现对以时间、空间、层次结构、社交等方面为特征的文档的建模,同时提出了一个基于 Laplace 近似的转化基础的近似算法以便对隐藏的高斯分布进行有效的近似推断。该 KTM 模型也可以被解释为一种 Gaussian 过程潜变量模型,或基于文档特征的主题模型,在发掘这些领域的早期工作的联系时非常有用。
Oct, 2011
本文提出了一种高斯混合神经主题模型(GMNTM),该模型将单词的顺序和句子的语义意义同时纳入了主题建模,实验结果表明,相比现有的主题建模方法,GMNTM 在困惑度、检索准确性和分类准确性方面获得了显著的改进。
Feb, 2015