Top2Vec:主题的分布式表示
本研究介绍了 lda2vec 模型,它可以联合学习文档层次上主题向量的 Dirichlet 分布与密集的单词向量,并且相对于连续的密集文档表示,可以产生更稀疏、可解释的文档混合分布。
May, 2016
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小化所有文档的期望差异。实验结果表明,所提出的方法在发现更连贯和多样化的主题以及提取更好的文档表示方面具有竞争性的性能。
Mar, 2022
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
本文提出一种能够在同一语料库内相互改进的主题模型和向量表示相互改进的算法框架,采用 EM 算法框架对主题模型和向量表示进行迭代优化,实验结果表明,该模型优于各种 NLP 任务的最新方法。
Feb, 2017
该研究提出了一个名为 STE 的框架,可以以统一的方式学习词嵌入和潜在主题,从而解决多义问题,并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。
Jun, 2017
本文介绍了一种无监督方法,通过学习嵌入式文档和单词向量,从未标记的文档数据集中检索出预定义主题的文档,并可用于多类文档分类,使用 Lbl2Vec 工具可方便地复制此方法。
Oct, 2022
本文提出了一个名为 DocTag2Vec 的新方法,通过在学习过程中同时学习单词,文档和标签的向量表示,来实现文档标记。与之前的多标签学习方法不同,它直接处理原始文本,旨在提高标签表示的学习和处理新创建标签的能力,并在多个数据集上展示了良好的表现。
Jul, 2017
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
本研究提出了一种新的方法来检测和可视化主题的趋势,其中使用 k-means 聚类和余弦相似性模型来确定主题的移动路径与方向,并在各种媒体机构的文章数据集上进行了测试。
Sep, 2022