Nov, 2023

基于共现词网络的不平衡短文本主题模型

TL;DR我们提出了一种用于发现不均衡的短文本数据集中稀缺主题的简单解决方案,名为CWUTM(基于共现词网络的不均衡短文本数据集的主题模型)。该方法通过减轻偶然词共现的影响来解决稀疏和不均衡的短文本主题的挑战。与以前的方法不同,CWUTM利用共现词网络来捕捉每个单词的主题分布,并通过重新定义节点活动的计算和在一定程度上标准化稀缺和丰富主题的表示来增强对稀缺主题的敏感性。此外,CWUTM采用了类似于LDA的Gibbs抽样方法,使其能够轻松适应各种应用场景。我们在不均衡的短文本数据集上进行了广泛的实验证实,证明了CWUTM在发现稀缺主题方面相比基准方法的优越性。根据实验结果,所提出的模型在社交平台上能够及早、准确地检测出新兴主题或意外事件。