使用潜在排列进行内容建模
该研究提出 GMM-LDA 模型,将文档建模为主题词和修辞词的混合,通过加入有序信息分析文档意图结构,并在无监督和有监督的情况下进行实验,结果表明该模型的优越性能。
Dec, 2015
本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架,通过联合建模主题 - 单词和文档 - 主题分布,有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
通过使用会话树以及区分话语角色,本文提出了一个无监督模型来提取微博信息中的主题并进行总结,结果表明这个模型能够有效地发现微博会话中摘要值得关注的内容。
Sep, 2018
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
使用大型语言模型,我们发现它们能够生成结构完整且连贯的长文本,表明虽然这些模型是基于下一个词的预测进行训练的,但它们必须表示文档的潜在结构。本文研究了潜在主题结构作为文档结构的互补方面,通过将大型语言模型优化与隐性贝叶斯推断相连接来验证我们的假设。我们通过拉普拉斯诱导的神经概率编码机制与连续下降信息论方法推导出来自大型语言模型的统计学抽象,进而通过推导来自大型语言模型的统计学抽象。
Dec, 2023
通过研究单词袋模型中单词出现的方式和顺序,发现在一些情况下,单词会随着时间轻轻地变化,而不是被假设的有限数量的主题所解释。研究展示了这种变化的潜在结构,可以被用来提高分类和预测任务中的性能。
Feb, 2012
本研究提出了一种深度、全局归一化的主题模型,该模型考虑了社交生成语料库中文档之间的结构关系,并通过加入观察到的回复链接来捕捉对话交互信息,以及使用深度体系结构排列的潜在分布式表示,以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 Reddit 论坛中的新社交媒体数据集,并对多个指标进行了评估,包括困惑度和元数据预测,并定量分析了所学到的交互模式。
Sep, 2018
我们提出了一种基于主题建模的方法来预测配对比较中的偏好,该方法利用新的生成模型来捕获预测人群中多种共享潜在排名以及自然的不一致性,并将潜在排名的估计形式地归约为相当于统计模型中的话题建模问题,在此基础上利用相关领域的新进展开发了一个算法,该算法可以以可证明的一致性、样本和计算复杂度的保证学习共享的潜在排名,并在一些半合成和真实世界数据集上证明了与当前最先进方法在预测偏好方面的实证竞争力。
Dec, 2014
本文研究的是 Latent Dirichlet Allocation 模型的一个变体,将文档混合比重置为 squashed Gaussian 分布,从而实现对以时间、空间、层次结构、社交等方面为特征的文档的建模,同时提出了一个基于 Laplace 近似的转化基础的近似算法以便对隐藏的高斯分布进行有效的近似推断。该 KTM 模型也可以被解释为一种 Gaussian 过程潜变量模型,或基于文档特征的主题模型,在发掘这些领域的早期工作的联系时非常有用。
Oct, 2011
我们介绍了作者 - 主题模型,它是一种生成文档的模型,扩展了隐含狄利克雷分配(LDA),包括作者信息,应用于 NIPS 会议论文和 CiteSeer 摘要,具有估算主题和作者分布的 Gibbs 采样基础上的性能比较。
Jul, 2012