联合学习词嵌入和潜在主题

SIGIRJun, 2017

Jointly Learning Word Embeddings and Latent Topics

Bei Shi, Wai Lam, Shoaib Jameel, Steven Schockaert, Kwun Ping Lai

TL;DR该研究提出了一个名为 STE 的框架，可以以统一的方式学习词嵌入和潜在主题，从而解决多义问题，并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。

Abstract

Word embedding models such as Skip-gram learn a vector-space representation for each word, based on the local word collocation patterns that are observed in a text corpus. Latent topic models, on the other hand,

word embeddings latent topics vector-space representation text corpus framework

发现论文，激发创造

LTSG: 潜在主题 Skip-Gram 用于相互学习主题模型和向量表示

本文提出一种能够在同一语料库内相互改进的主题模型和向量表示相互改进的算法框架，采用 EM 算法框架对主题模型和向量表示进行迭代优化，实验结果表明，该模型优于各种 NLP 任务的最新方法。

Feb, 2017

用主题嵌入混合表示单词嵌入混合

本文提出了一种新的主题建模框架，在该框架中，每个文档都被视为一组单词嵌入向量，每个主题都被建模为嵌入空间中的嵌入向量，并在相同的向量空间中嵌入单词和主题，定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异，并优化主题嵌入以最小化所有文档的期望差异。实验结果表明，所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。

Mar, 2022

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016

Top2Vec：主题的分布式表示

提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Aug, 2020

生成主题嵌入：文档连续表征 (包含证明的扩展版)

本文提出一种生成主题嵌入模型，通过结合局部和全局单词共现模式，将局部和全局信息融合到主题表示中，从而在低维空间中表示文档，并在两个文档分类任务中表现优于八种现有方法，并且即使仅基于一个文档，也能生成连贯的主题。

Jun, 2016

基于主题模型的多义词嵌入

该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入，同时介绍了一种修剪嵌入的方法，用于代表每个主题中每个单词的概率表示，并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性，并优于各种最先进的实现。

Sep, 2019

LDA2VEC：利用狄利克雷主题模型和词嵌入相结合

本研究介绍了 lda2vec 模型，它可以联合学习文档层次上主题向量的 Dirichlet 分布与密集的单词向量，并且相对于连续的密集文档表示，可以产生更稀疏、可解释的文档混合分布。

May, 2016

Topic2Vec: 学习主题的分布式表示

本文提出 Topic2Vec 方法，通过在语义向量空间中学习话题表示来替代概率的 LDA 表示，实验证明该方法取得了有意义的结果。

Jun, 2015

关键词辅助的嵌入式主题模型

本文提出了关键词辅助嵌入式主题模型（KeyETM)，它使嵌入式主题模型（ETM）得以利用用户先前领域知识中的信息，从而在量化指标和主题干扰任务的实验中展现了优秀的表现，而不仅仅是将话题模型作为无监督模型。

Nov, 2021

上下文化注意力嵌入的主题

通过设计不同的探针实验，使用 BERT 和 DistilBERT，我们发现注意力框架在模拟主题词簇时发挥了关键作用，这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。

Jan, 2023