本文提出一种能够在同一语料库内相互改进的主题模型和向量表示相互改进的算法框架,采用 EM 算法框架对主题模型和向量表示进行迭代优化,实验结果表明,该模型优于各种 NLP 任务的最新方法。
Feb, 2017
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小化所有文档的期望差异。实验结果表明,所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。
Mar, 2022
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
Sep, 2019
本研究介绍了 lda2vec 模型,它可以联合学习文档层次上主题向量的 Dirichlet 分布与密集的单词向量,并且相对于连续的密集文档表示,可以产生更稀疏、可解释的文档混合分布。
May, 2016
本文提出 Topic2Vec 方法,通过在语义向量空间中学习话题表示来替代概率的 LDA 表示,实验证明该方法取得了有意义的结果。
Jun, 2015
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
通过设计不同的探针实验,使用 BERT 和 DistilBERT,我们发现注意力框架在模拟主题词簇时发挥了关键作用,这为探讨概率主题模型和预训练语言模型之间的关系铺平了道路。
Jan, 2023