ACLMay, 2022

利用社交媒体帖子的无监督嵌入聚类预测 COVID-19 病例负载

TL;DR通过追踪特定美国州 COVID-19 子版块 Reddit 帖子的句子级表示的高密度聚类,我们将基于转换器的语言模型纳入了传染病建模中,并在许多高质量数据集中进行基准测试。结果表明,除了其他特征类型之外,这些聚类嵌入特征在预测传染病上升趋势信号方面表现最好,对于流行病学数据不可靠的领域具有重要意义。随后,在时间序列预测任务中,我们充分利用了以上模型的预测能力,并比较了使用不同补充数据集作为协变量特征集时,基于转换器的时间序列模型的相对优势。