自动总结大规模突发事件在灾难管理中起着关键作用。CrisisFACTS 的第二版旨在基于多流事实查证,重点关注 Twitter、Reddit、Facebook 和 Webnews 等网络信息源的灾难总结。本文描述了我们解决这个具有挑战性任务的方法。我们依照以前的工作,并提出使用检索、重新排序和简单指令遵循总结相结合的方法。两阶段检索管道依赖于 BM25 和 MonoT5,而总结模块基于开源大型语言模型 LLaMA-13b。对于总结,我们采用了一个问题回答 (QA) 驱动的提示方法,并发现证据对于提取与查询相关的事实是有用的。自动评估和人工评估结果表明具有很强的效果,但也凸显了开源和专有系统之间的差距。
Feb, 2024
论文提出了 CrisisFACTS 追踪,该追踪致力于解决多流事件追踪领域中的诸多挑战,运用整数线性规划、最大边际相关性等框架,以及各种提取事实的方法,最终探讨了其中的优劣。
Feb, 2023
本文提出了一种跨语言方法来检索和总结社交媒体帖子中与危机相关的信息,该方法基于多语种变形金刚嵌入,可以创建准确,有结构的摘要,与现有的最先进方法相比,被认为更加专注,有结构并且相关性更强。
Apr, 2022
本研究基于一类聚类的方法,通过针对新闻报道数据提取兼容事件的查询系统,根据添加事件的顺序逐步评估每个事件的兼容性,使用合成数据进行模型训练,在新的人为筛选数据集上实现了较高表现且优于现有基准,相信更强大的神经网络模型和更严格的训练设置将有助于促进后续研究。
Sep, 2019
本论文旨在介绍基于神经网络的分类方法,该方法针对社交媒体上的危机信息进行二元和多元分类。本方法无需进行特征工程,相比现有的最先进的分类方法,其性能更佳,并可在缺乏标记数据的情况下取得良好的分类效果。
Aug, 2016
本文提出了目前为止最大的本地危机事件时间轴数据集 CrisisLTLSum,它包含了 1000 个危机事件时间轴数据,可用于基准测试时间轴拓展和抽象摘要技术的任务。该数据集是通过采用半自动化集群 - 精化方法从公共推特数据流中收集数据构建的,其初始实验表明,对于这两个任务而言,强基线与人类表现之间存在着显著差距,并且我们还公开了数据集、代码和模型。
Oct, 2022
本文提出使用集成半监督学习方法来利用非标记数据,以更加快速和准确地对自然灾害等关键情况下所发布的社交媒体数据进行分类,从而更有效地提高救援响应效率。
May, 2018
本文提出了一种基于域特定知识和关键短语的 tweet 自动摘要框架 IKDSumm,在 12 个灾害数据集上进行了实验,与 8 种现有技术相比,在 ROUGE-N F1 - 分数方面提高了约 2-79%。
May, 2023
本论文旨在通过整合多个数据集,提高处理社交媒体上危机相关数据的深度学习模型的性能,从而增强人道主义应对能力。研究集中在危机信息学的相关技术和系统,以及二元或多类分类任务的性能指标。
Apr, 2020
本文研究信息检索在实时搜索中面临的挑战,通过整合事件信息和查询,利用跨注意力机制实现时间背景的查询表示,通过多任务训练增强事件表示能力,以及通过两阶段训练和硬负采样进行模型优化,并通过实验证明本方法在时间敏感场景下显著优于现有基线方法。
Dec, 2023