TweetDIS: 利用弱监督构建自然灾害 Twitter 大数据集

Jul, 2022

TweetDIS: 利用弱监督构建自然灾害 Twitter 大数据集

TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak Supervision

Ramya Tekumalla, Juan M. Banda

TL;DR本文介绍了使用弱监督创建标记数据集以训练机器学习模型来识别三种不同类型的自然灾害的方法，其表现优于人工标注的金标准数据集，并公开了数据集以供科研社区使用。

Abstract

social media is often utilized as a lifeline for communication during natural disasters. Traditionally, natural disaster tweets are filtered from the twitter stream using the name of the natural disaster and the

social media natural disasters machine learning dataset twitter

发现论文，激发创造

HumAID: 通过深度学习基准从 Twitter 中获取人工注释的灾难事件数据

本文提出一种基于深度学习模型和人类标注的新型大规模社交媒体数据集，用于自然灾害期间信息分类和简洁归纳，以改善现有数据集的局限性，提高分类准确度。

Apr, 2021

社交媒体文本上基于弱监督的细粒度事件识别在灾害管理中的应用

本文通过弱监督学习建立高质量的社交媒体紧急信息分类器，使用 Twitter 上的微博信息以及事件关键词帮助快速生成高质量的标签化数据，利用前续信息和回复信息来丰富微博表示方法以处理嘈杂短小的用户生成信息，且仅需 1-2 人时的人工监督即可在两次飓风期间实现优于需要 50 人时手动标注的管理分类器。

Oct, 2020

基于 Twitter 的市民渠道在自然灾害情况下的相关信息识别

本文介绍了如何构建一个基于在线社交网络的分类器来筛选有关地震的推文，以减少公众在自然灾害时获取相关信息的难度。通过使用 2010 年智利地震的数据集，作者们研究了类不平衡和维度降低等变量对 5 种分类器的影响，为构建类似系统提供了重要的参考和建议。

Mar, 2015

在野外检测自然灾害、损伤和事件

本研究致力于提出一个名为 Incidents Dataset 的大规模图像数据集，以识别社交媒体平台上有关自然灾害的图片，并使用基线分类模型进行分类。

Aug, 2020

CrisisMMD：自然灾害的多模态 Twitter 数据集

通过收集自然灾害期间 Twitter 上的大量多模态数据集，为人道主义组织提供了有用的三种注释类型以解决危机响应和管理任务，特别关注社交媒体上的图像内容在减灾救灾中的作用。

May, 2018

Twitter 作为生命线：人工标注的 Twitter 语料库用于处理与危机相关的信息的自然语言处理

本研究对 19 种不同危机期间收集的 Twitter 语料库进行了人工标注并训练了机器学习分类器，此外还发布了在 5200 万条危机相关 Tweets 上训练的第一大 word2vec word embeddings，以应对消息的语言问题，提出了不同词汇变体的人工标注规范资源。

May, 2016

危机匹配：用于细粒度灾害推文分类的半监督少样本学习

社交媒体平台上关于自然灾害的实时信息在通知志愿者、应急管理人员和救援组织方面起到关键作用。然而，监测灾害事件的监督学习模型需要大量标注数据，使得其在实时灾害事件中难以实现。为了应对这一挑战，我们提出了一种在半监督少样本学习条件下的细粒度灾害推文分类模型，仅需小量标注数据。我们的模型 CrisisMatch 利用少量标注数据和大量无标注数据有效地将推文分类为感兴趣的细粒度类别，模拟灾害的早期阶段。通过集成有效的半监督学习方法和引入 TextMixUp，CrisisMatch 在两个灾害数据集上平均提升了 11.2％的性能。此外，我们还对标注数据数量和领域外结果的影响进行了进一步分析。

Oct, 2023

利用嘈杂学习方法鉴定与流行病相关的推文

本文利用嘈杂学习理论生成弱监督信号替代手动标注以产生带有嘈杂标签的数据集，通过在一个大流行病语料库上的评估，本研究证明在一个类别不平衡和多分类弱监督学习的环境下，模型的性能超过了 90%。

Sep, 2022

ADSumm：用于灾难推文摘要的标注真实摘要数据集

在线社交媒体平台，在灾难事件中提供有价值的信息。本研究介绍了 ADSomm，为八个灾难事件添加了关注度，相关性和多样性，通过改进现有的监督性总结方法的性能提高了 8-28％的 ROUGE-N F1 分数。

May, 2024

大规模灾害中无监督子事件检测

本文提出了一种利用语义嵌入和无监督学习的方法，在社交媒体的帖子数据集中对于重大自然灾害的子事件进行识别，并对其进行分析和分类。通过对两组数据集进行实验证明了该方法的有效性和优越性。

Dec, 2019