Sep, 2023

危机转型:面向危机相关社交媒体文本的预训练语言模型和句子编码器

TL;DR社交媒体平台在危机传播中起着重要作用,但由于其非正式性质,分析危机相关的社交媒体文本具有挑战性。为了解决危机信息学文献中的这些差距,本研究引入了 CrisisTransformers,这是一个预训练语言模型和句子编码器的集合,它们经过广泛的语料库训练,包含了超过 150 亿词元的推文,涉及 30 多个危机事件,包括疾病爆发、自然灾害、冲突和其他重大事件。评估现有模型和 CrisisTransformers 在 18 个危机特定的公共数据集上表现,我们的预训练模型在所有数据集的分类任务中都优于强基线,而我们表现最佳的句子编码器在句子编码任务中将现有技术水平提高了 17.43%。此外,我们研究了模型初始化对收敛性的影响,并评估了领域专用模型在生成语义有意义的句子嵌入中的重要性。所有模型已公开发布,以期成为分析危机相关社交媒体文本任务的强大基准。