Top2Vec：主题的分布式表示

Aug, 2020

Top2Vec: Distributed Representations of Topics

Dimo Angelov

TL;DR提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Abstract

topic modeling is used for discovering latent semantic structure, usually referred to as topics, in a large collection of documents. The most widely used methods are →

topic modeling latent semantic structure latent dirichlet allocation probabilistic latent semantic analysis top2vec

发现论文，激发创造

Topic2Vec: 学习主题的分布式表示

本文提出 Topic2Vec 方法，通过在语义向量空间中学习话题表示来替代概率的 LDA 表示，实验证明该方法取得了有意义的结果。

Jun, 2015

LDA2VEC：利用狄利克雷主题模型和词嵌入相结合

本研究介绍了 lda2vec 模型，它可以联合学习文档层次上主题向量的 Dirichlet 分布与密集的单词向量，并且相对于连续的密集文档表示，可以产生更稀疏、可解释的文档混合分布。

May, 2016

用主题嵌入混合表示单词嵌入混合

本文提出了一种新的主题建模框架，在该框架中，每个文档都被视为一组单词嵌入向量，每个主题都被建模为嵌入空间中的嵌入向量，并在相同的向量空间中嵌入单词和主题，定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异，并优化主题嵌入以最小化所有文档的期望差异。实验结果表明，所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。

Mar, 2022

生成主题嵌入：文档连续表征 (包含证明的扩展版)

本文提出一种生成主题嵌入模型，通过结合局部和全局单词共现模式，将局部和全局信息融合到主题表示中，从而在低维空间中表示文档，并在两个文档分类任务中表现优于八种现有方法，并且即使仅基于一个文档，也能生成连贯的主题。

Jun, 2016

LTSG: 潜在主题 Skip-Gram 用于相互学习主题模型和向量表示

本文提出一种能够在同一语料库内相互改进的主题模型和向量表示相互改进的算法框架，采用 EM 算法框架对主题模型和向量表示进行迭代优化，实验结果表明，该模型优于各种 NLP 任务的最新方法。

Feb, 2017

联合学习词嵌入和潜在主题

该研究提出了一个名为 STE 的框架，可以以统一的方式学习词嵌入和潜在主题，从而解决多义问题，并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。

Jun, 2017

Lbl2Vec: 面向预定义主题的无监督文档检索基于嵌入的方法

本文介绍了一种无监督方法，通过学习嵌入式文档和单词向量，从未标记的文档数据集中检索出预定义主题的文档，并可用于多类文档分类，使用 Lbl2Vec 工具可方便地复制此方法。

Oct, 2022

DocTag2Vec：一种基于嵌入的文档标记多标签学习方法

本文提出了一个名为 DocTag2Vec 的新方法，通过在学习过程中同时学习单词，文档和标签的向量表示，来实现文档标记。与之前的多标签学习方法不同，它直接处理原始文本，旨在提高标签表示的学习和处理新创建标签的能力，并在多个数据集上展示了良好的表现。

Jul, 2017

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

使用 Word2Vec 进行话题的时间分析

本研究提出了一种新的方法来检测和可视化主题的趋势，其中使用 k-means 聚类和余弦相似性模型来确定主题的移动路径与方向，并在各种媒体机构的文章数据集上进行了测试。

Sep, 2022