基于 BERT 语言模型的灾难推文分类
在这篇论文中,我们提出了一个三步解决方案,旨在充分利用社交媒体内容和自然语言处理技术,实现灾害信息学中的相关分类、地点提取和主题建模,以应对社交媒体内容中的挑战。
May, 2024
本文介绍了如何构建一个基于在线社交网络的分类器来筛选有关地震的推文,以减少公众在自然灾害时获取相关信息的难度。通过使用 2010 年智利地震的数据集,作者们研究了类不平衡和维度降低等变量对 5 种分类器的影响,为构建类似系统提供了重要的参考和建议。
Mar, 2015
该论文主要研究社交媒体在灾难和紧急情况下作为信息来源的潜力和挑战,并提出了一种基于文本分类的框架来处理 Twitter 噪声数据,通过使用多个 transformers 模型最终达到了 F1-score 0.87 的高分数。
Jan, 2023
本文研究了在灾难中使用社交媒体如 Twitter 等传播信息以提高灾难控制。当前流行的通过学习的方法无法很好地识别与灾难相关的推文,因此我们提出了一种基于匹配关键词和标签的简单而有效的算法。结果表明,我们的方法提供了更高质量和更可解释的情绪分析任务相关的推文,是一种可行的方法。
May, 2017
通过对事先训练的大型语言模型(LLM)进行指令微调,将其嵌入灾害特定知识,从而实现对灾害相关推文的多标签分类,提高社交媒体数据在灾难情境感知中的效用。
Jun, 2024
本研究对 19 种不同危机期间收集的 Twitter 语料库进行了人工标注并训练了机器学习分类器,此外还发布了在 5200 万条危机相关 Tweets 上训练的第一大 word2vec word embeddings,以应对消息的语言问题,提出了不同词汇变体的人工标注规范资源。
May, 2016
本文通过弱监督学习建立高质量的社交媒体紧急信息分类器,使用 Twitter 上的微博信息以及事件关键词帮助快速生成高质量的标签化数据,利用前续信息和回复信息来丰富微博表示方法以处理嘈杂短小的用户生成信息,且仅需 1-2 人时的人工监督即可在两次飓风期间实现优于需要 50 人时手动标注的管理分类器。
Oct, 2020
本文提出一种基于深度学习模型和人类标注的新型大规模社交媒体数据集,用于自然灾害期间信息分类和简洁归纳, 以改善现有数据集的局限性,提高分类准确度。
Apr, 2021