深度潜在位置主题模型用于文本边网络的聚类和表示

Apr, 2023

深度潜在位置主题模型用于文本边网络的聚类和表示

The Deep Latent Position Topic Model for Clustering and Representation of Networks with Textual Edges

Rémi Boutin, Pierre Latouche, Charles Bouveyron

TL;DR本研究介绍了一种基于概率模型和可变图自动编码器方法的 Deep-LPTM 模型聚类策略，使节点和边在两个嵌入空间中构建联合表示，以解决社交网络中的节点聚类和数据可视化等问题，并在 Enron 公司的电子邮件数据上进行了验证。

Abstract

Numerical interactions leading to users sharing textual content published by others are naturally represented by a network where the individuals are associated with the nodes and the exchanged texts with the edges. To understand those heterogeneous and complex data structures, clustering

network analysis clustering graph visualization probabilistic modeling topic modeling

发现论文，激发创造

预训练语言模型表示的潜空间聚类进行主题发现

本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架，通过联合建模主题 - 单词和文档 - 主题分布，有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征，并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题，并提供更好的基于主题的文档表达形式。

Feb, 2022

主题模型的网络方法

采用随机块模型方法，针对主题建模中存在的问题，提出了一种更具通用性和原则性的框架，该框架能够自动检测主题数和分级群集单词和文档，从而比 LDA 在统计模型选择方面提供更好的主题模型。

Aug, 2017

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016

基于 Transformer 表示的概率主题建模

我们提出了 Transformer-Representation Neural Topic Model (TNTM)，它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合，利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性，实验结果表明，我们提出的模型在嵌入连贯性方面达到了各种最先进方法的结果，并且保持了几乎完美的主题多样性。

Mar, 2024

关键词辅助的嵌入式主题模型

本文提出了关键词辅助嵌入式主题模型（KeyETM)，它使嵌入式主题模型（ETM）得以利用用户先前领域知识中的信息，从而在量化指标和主题干扰任务的实验中展现了优秀的表现，而不仅仅是将话题模型作为无监督模型。

Nov, 2021

textTOvec: 深度上下文化的神经自回归主题模型，采用分布式组合先验

本文提出了一种名为 ctx-DocNADE 的新颖的神经自回归主题模型，将 TM 和 LM 的两种学习词出现意义的学习范例组合在一起，通过嵌入词静态信息的输入，显著改善了小语料库和短文本中的词 - 主题映射，并在不同领域的 6 个长文本和 8 个短文本数据集上展示出了优越的泛化能力、可解释性和适用性。

Oct, 2018

半监督神经主题建模的联合学习方法

本文介绍了标签索引神经主题模型（LI-NTM），它是迄今为止首个有效的上游半监督神经主题模型，并通过文档重建基准测试发现 LI-NTM 在低标记数据制度和带有信息标签的数据集中优于现有神经主题模型，此外，通过消融研究发现，我们共同学习的分类器优于基线分类器。

Apr, 2022

动态嵌入主题模型

该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型，通过向每个时间步长中的嵌入表示赋值主题，该模型能够学习到平滑的主题轨迹，并在三个不同的语料库上发现，在文档完成任务中，该模型优于动态 LDA，而且比 LDA 更易于训练。

Jul, 2019

深度 de Finetti：从大型语言模型中恢复主题分布

使用大型语言模型，我们发现它们能够生成结构完整且连贯的长文本，表明虽然这些模型是基于下一个词的预测进行训练的，但它们必须表示文档的潜在结构。本文研究了潜在主题结构作为文档结构的互补方面，通过将大型语言模型优化与隐性贝叶斯推断相连接来验证我们的假设。我们通过拉普拉斯诱导的神经概率编码机制与连续下降信息论方法推导出来自大型语言模型的统计学抽象，进而通过推导来自大型语言模型的统计学抽象。

Dec, 2023

自动主题生成的分层潜在语义映射

本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法，它可以自动从语料库中生成主题，并使用单词之间的关联和层次生成主题网络。实验表明，相比于现有的一些最先进的方法，HLSM 在几个文档集合上表现良好。

Nov, 2015