使用 Word2Vec 进行话题的时间分析

Sep, 2022

Temporal Analysis on Topics Using Word2Vec

Angad Sandhu, Aneesh Edara, Faizan Wajid, Ashok Agrawala

TL;DR本研究提出了一种新的方法来检测和可视化主题的趋势，其中使用 k-means 聚类和余弦相似性模型来确定主题的移动路径与方向，并在各种媒体机构的文章数据集上进行了测试。

Abstract

The present study proposes a novel method of trend detection and visualization - more specifically, modeling the change in a topic over time. Where current models used for the identification and →

trend detection visualization topic modeling k-means clustering cosine similarity

发现论文，激发创造

Top2Vec：主题的分布式表示

提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Aug, 2020

主题模型的稳定性分析，需要多少主题？

本文提出了一种基于术语稳定性分析策略的主题建模方法，该方法基于矩阵分解的主题建模方法在一系列语料库上得到验证，可以成功指导模型选择过程。

Apr, 2014

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

分析时间序列文档集的动态和静态主题模型

本文提出一个动态和静态主题模型，能同时考虑时间上的主题演化和每个时间的主题层级结构，以此来分析结构化的时间序列文档。作者通过实验表明，该方法在科学论文集的主题提取方面优于传统模型，并展示了提取出的主题结构，以此来帮助对研究活动进行分析。

May, 2018

社交群体之间的思想流动追踪

本文提出了一种方法来建模词群之间的流动行为、识别不同用户群体之间词汇聚类的先导滞后关系，使用基于动态时间扭曲的改进 Bayesian 条件协整来学习不同群体词汇之间的联系，采用基于张量的技术将这些链接单词聚类到不同的簇（ideas）中并跟踪 ideas 的流动，经过实验验证，该方法相对于传统聚类技术和精度更高，可用于帮助用户了解社交媒体上不同用户群体之间想法的流动。

Dec, 2015

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

神经动态聚焦主题模型

本文提出了一种基于神经组态推断的动态聚焦主题模型，该模型能够跟踪主题的出现情况以及活跃度，并在各种任务中实现了比其他主题模型更好的泛化能力和类似的预测能力。

Jan, 2023

在词使用中捕获进化：只需增加更多聚类吗？

本文旨在研究语义演变在文本数据中的检测与分析方法，特别是基于上下文嵌入的新方法，通过对比多个方法的表现以及提出相关改进策略，显著提高了现有方法的性能。

Jan, 2020

利用意义而非词汇来追踪话题

本研究探讨了使用词嵌入的语义信息进行话题追踪的方法可行性。结果表明，这种语义方法与基于词汇的方法相当，但会出现不同的错误，两种方法可能互补。

Jan, 2023

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020