嵌入空间中的主题建模
该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型,通过向每个时间步长中的嵌入表示赋值主题,该模型能够学习到平滑的主题轨迹,并在三个不同的语料库上发现,在文档完成任务中,该模型优于动态 LDA,而且比 LDA 更易于训练。
Jul, 2019
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小化所有文档的期望差异。实验结果表明,所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。
Mar, 2022
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架,通过联合建模主题 - 单词和文档 - 主题分布,有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
我们提出了 Transformer-Representation Neural Topic Model (TNTM),它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合,利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性,实验结果表明,我们提出的模型在嵌入连贯性方面达到了各种最先进方法的结果,并且保持了几乎完美的主题多样性。
Mar, 2024
本文提出了一种新的神经主题模型 —— 嵌入聚类正则化主题模型 (ECRTM),通过嵌入聚类正则化 (ER) 使每个产生的主题包含不同的词义,从而缓解了主题崩溃问题,并在主题质量、文档主题分布和下游分类任务等方面持续超越了最先进的基线。
Jun, 2023