Oct, 2023

基于词嵌入的主题建模流程

TL;DR通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了BERT模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用UMAP降维技术,能保留原始数据的局部和全局信息的一部分;K-Means作为聚类算法,用于获取主题;然后,使用TF-IDF统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。