句法主题模型
该论文从理论上证明了利用非负矩阵分解(NMF)作为主要工具来实现主题模型学习算法的可行性,具有学习效率高,不需要数据满足某些限制条件等优点,可用于包含主题-主题相关性的模型。
Apr, 2012
本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型,比较了多种学习算法,发现主要区别在于应用于计数的平滑量。在优化超参数时,算法性能的差异显著缩小,这使得我们能够选择计算效率高的方法来学习准确的主题模型。
May, 2012
本文介绍了用于构建层次化非参数贝叶斯模型的狄利克雷过程及其扩展——皮特曼-约尔过程,提出了用于文本分析的潜变量模型。重点介绍了一种通用的贝叶斯模型设计框架,并提出了一种具体的非参数贝叶斯主题模型,用于对社交媒体上的推文进行建模。实证研究表明,我们的模型在适应度和现实应用中都优于现有的参数模型。
Sep, 2016
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比LDA在统计模型选择方面提供更好的主题模型。
Aug, 2017
我们提出了一个名为TCNLM的话题组成神经语言模型,它通过神经话题模型来学习文档的全局语义连贯性,并通过混合专家语言模型来学习本地单词顺序结构,同时使用矩阵分解方法使模型更高效地训练,可生成有意义的话题和句子。
Dec, 2017
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本文提出了一种基于PLM嵌入的联合潜在空间学习和聚类框架,通过联合建模主题-单词和文档-主题分布,有效地利用PLMs在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
在本论文中,我们采取了一种新的方法来解决短文本主题建模中的数据稀疏问题,通过利用现有的预训练语言模型将短文本扩展为更长的序列。此外,我们提供了一种简单的解决方案,通过扩展神经主题模型来减少预训练语言模型生成的与主题无关的噪声文本的影响。我们观察到我们的模型能够显著改善短文本主题建模的性能。在极度数据稀疏的情况下,对多个真实数据集进行的大量实验证明了我们的模型可以生成优质主题,胜过现有最先进的模型。
Oct, 2023
使用大型语言模型,我们发现它们能够生成结构完整且连贯的长文本,表明虽然这些模型是基于下一个词的预测进行训练的,但它们必须表示文档的潜在结构。本文研究了潜在主题结构作为文档结构的互补方面,通过将大型语言模型优化与隐性贝叶斯推断相连接来验证我们的假设。我们通过拉普拉斯诱导的神经概率编码机制与连续下降信息论方法推导出来自大型语言模型的统计学抽象,进而通过推导来自大型语言模型的统计学抽象。
Dec, 2023