Mar, 2024

通过社交网络上的ARIMA时间序列分析解码多语言主题动态和趋势识别:由LDA/HDP模型增强的新型数据转化框架

TL;DR本研究介绍了一种新颖的方法,能够在危机期间解码多语种话题动态和识别通信趋势。我们关注突尼斯社交网络中的对话,涵盖新冠疫情以及运动和政治等其他重要主题。通过整合涉及这些主题的各种多语种评论语料库开始研究。接下来,我们介绍了无英语到英语的机器翻译方法来处理语言差异。我们的方法经过实证测试,表现出高准确率和F1分数,适用于语言连贯性任务。通过运用LDA和HDP模型,我们利用这些先进的建模技术从翻译内容中提取相关主题。然后,我们采用ARIMA时间序列分析方法来解码不断变化的主题趋势。将我们的方法应用于突尼斯的多语种数据集,我们有效地识别了反映公众情绪的关键主题。这种洞察对于组织和政府在危机期间努力理解公众观点至关重要。与标准方法相比,我们的模型表现更好,这一点得到了相关度评分、U-mass和话题连贯性等度量指标的确认。此外,对确定的主题进行深入评估揭示了讨论中的显著主题转变,而我们的趋势识别显示出令人印象深刻的准确性,并得到了基于RMSE的分析的支持。