短期危机信息中的低监督紧急情况检测和转移
本文通过弱监督学习建立高质量的社交媒体紧急信息分类器,使用 Twitter 上的微博信息以及事件关键词帮助快速生成高质量的标签化数据,利用前续信息和回复信息来丰富微博表示方法以处理嘈杂短小的用户生成信息,且仅需 1-2 人时的人工监督即可在两次飓风期间实现优于需要 50 人时手动标注的管理分类器。
Oct, 2020
本文提出使用集成半监督学习方法来利用非标记数据,以更加快速和准确地对自然灾害等关键情况下所发布的社交媒体数据进行分类,从而更有效地提高救援响应效率。
May, 2018
社交媒体平台上关于自然灾害的实时信息在通知志愿者、应急管理人员和救援组织方面起到关键作用。然而,监测灾害事件的监督学习模型需要大量标注数据,使得其在实时灾害事件中难以实现。为了应对这一挑战,我们提出了一种在半监督少样本学习条件下的细粒度灾害推文分类模型,仅需小量标注数据。我们的模型 CrisisMatch 利用少量标注数据和大量无标注数据有效地将推文分类为感兴趣的细粒度类别,模拟灾害的早期阶段。通过集成有效的半监督学习方法和引入 TextMixUp,CrisisMatch 在两个灾害数据集上平均提升了 11.2% 的性能。此外,我们还对标注数据数量和领域外结果的影响进行了进一步分析。
Oct, 2023
本文提出了一种利用语义嵌入和无监督学习的方法,在社交媒体的帖子数据集中对于重大自然灾害的子事件进行识别,并对其进行分析和分类。通过对两组数据集进行实验证明了该方法的有效性和优越性。
Dec, 2019
本研究对 19 种不同危机期间收集的 Twitter 语料库进行了人工标注并训练了机器学习分类器,此外还发布了在 5200 万条危机相关 Tweets 上训练的第一大 word2vec word embeddings,以应对消息的语言问题,提出了不同词汇变体的人工标注规范资源。
May, 2016
采用 BERT 嵌入并进行微调可以适应新危机,发现新主题,并从受监督训练中保留相关类别,利用双向自注意力提取主题关键词。其在人工和自动评估中胜过传统主题模型。
Mar, 2021
本论文旨在介绍基于神经网络的分类方法,该方法针对社交媒体上的危机信息进行二元和多元分类。本方法无需进行特征工程,相比现有的最先进的分类方法,其性能更佳,并可在缺乏标记数据的情况下取得良好的分类效果。
Aug, 2016