使用 Word2Vec 进行话题的时间分析
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
本文提出一个动态和静态主题模型,能同时考虑时间上的主题演化和每个时间的主题层级结构,以此来分析结构化的时间序列文档。作者通过实验表明,该方法在科学论文集的主题提取方面优于传统模型,并展示了提取出的主题结构,以此来帮助对研究活动进行分析。
May, 2018
本文提出了一种方法来建模词群之间的流动行为、识别不同用户群体之间词汇聚类的先导滞后关系,使用基于动态时间扭曲的改进 Bayesian 条件协整来学习不同群体词汇之间的联系,采用基于张量的技术将这些链接单词聚类到不同的簇(ideas)中并跟踪 ideas 的流动,经过实验验证,该方法相对于传统聚类技术和精度更高,可用于帮助用户了解社交媒体上不同用户群体之间想法的流动。
Dec, 2015
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
本文旨在研究语义演变在文本数据中的检测与分析方法,特别是基于上下文嵌入的新方法,通过对比多个方法的表现以及提出相关改进策略,显著提高了现有方法的性能。
Jan, 2020
本文提出了一种利用预训练单词嵌入进行文本聚类的新方法,同时整合文本信息进行加权聚类并重新排名前几个单词,旨在挖掘出文档集合中的主题,并对其性能进行基准测试并分析其在降维中的性能。实验表明,所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。
Apr, 2020