TweetDIS: 利用弱监督构建自然灾害 Twitter 大数据集
本文提出一种基于深度学习模型和人类标注的新型大规模社交媒体数据集,用于自然灾害期间信息分类和简洁归纳, 以改善现有数据集的局限性,提高分类准确度。
Apr, 2021
本文通过弱监督学习建立高质量的社交媒体紧急信息分类器,使用 Twitter 上的微博信息以及事件关键词帮助快速生成高质量的标签化数据,利用前续信息和回复信息来丰富微博表示方法以处理嘈杂短小的用户生成信息,且仅需 1-2 人时的人工监督即可在两次飓风期间实现优于需要 50 人时手动标注的管理分类器。
Oct, 2020
本文介绍了如何构建一个基于在线社交网络的分类器来筛选有关地震的推文,以减少公众在自然灾害时获取相关信息的难度。通过使用 2010 年智利地震的数据集,作者们研究了类不平衡和维度降低等变量对 5 种分类器的影响,为构建类似系统提供了重要的参考和建议。
Mar, 2015
通过收集自然灾害期间 Twitter 上的大量多模态数据集,为人道主义组织提供了有用的三种注释类型以解决危机响应和管理任务,特别关注社交媒体上的图像内容在减灾救灾中的作用。
May, 2018
本研究对 19 种不同危机期间收集的 Twitter 语料库进行了人工标注并训练了机器学习分类器,此外还发布了在 5200 万条危机相关 Tweets 上训练的第一大 word2vec word embeddings,以应对消息的语言问题,提出了不同词汇变体的人工标注规范资源。
May, 2016
社交媒体平台上关于自然灾害的实时信息在通知志愿者、应急管理人员和救援组织方面起到关键作用。然而,监测灾害事件的监督学习模型需要大量标注数据,使得其在实时灾害事件中难以实现。为了应对这一挑战,我们提出了一种在半监督少样本学习条件下的细粒度灾害推文分类模型,仅需小量标注数据。我们的模型 CrisisMatch 利用少量标注数据和大量无标注数据有效地将推文分类为感兴趣的细粒度类别,模拟灾害的早期阶段。通过集成有效的半监督学习方法和引入 TextMixUp,CrisisMatch 在两个灾害数据集上平均提升了 11.2% 的性能。此外,我们还对标注数据数量和领域外结果的影响进行了进一步分析。
Oct, 2023
本文利用嘈杂学习理论生成弱监督信号替代手动标注以产生带有嘈杂标签的数据集,通过在一个大流行病语料库上的评估,本研究证明在一个类别不平衡和多分类弱监督学习的环境下,模型的性能超过了 90%。
Sep, 2022
在线社交媒体平台,在灾难事件中提供有价值的信息。本研究介绍了 ADSomm,为八个灾难事件添加了关注度,相关性和多样性,通过改进现有的监督性总结方法的性能提高了 8-28%的 ROUGE-N F1 分数。
May, 2024
本文提出了一种利用语义嵌入和无监督学习的方法,在社交媒体的帖子数据集中对于重大自然灾害的子事件进行识别,并对其进行分析和分类。通过对两组数据集进行实验证明了该方法的有效性和优越性。
Dec, 2019