ArCOV19-Rumors: 用于虚假信息检测的阿拉伯语 COVID-19 Twitter 数据集
本文介绍了一份阿拉伯语 COVID-19 Twitter 数据集 ArCOV-19,该数据集可以用于自然语言处理、信息检索和社交计算等多个领域的研究
Apr, 2020
该研究通过开发和发布人工注释的大规模阿拉伯推文数据集 ArCovidVac 来解决 COVID-19 疫苗接种期间社交媒体上流传的谣言和阴谋论的鉴别问题,并通过对数据的深入分析和基于 transformer 模型的评估来探究推文内容、态度和类型的时空变化。
Jan, 2022
为了更好地了解公众行为、兴趣话题、政府要求、推特来源等等,并防止有关病毒或不良治疗方法的谣言和误报的传播,在研究中,我们提供了一个人工标注的阿拉伯语推特最大数据集,描述了其注释指南、分析了数据集并构建了有效的机器学习和 Transformer 模型以进行分类。
Dec, 2020
本文介绍了 2020 年 1 月 1 日以来首个收集的新冠肺炎疫情下阿拉伯语推特数据集,该数据集可帮助研究人员和决策者研究与该大流行相关的不同社会问题,包括行为变化、信息共享、流言传播等等。
Apr, 2020
该研究研究了推特阿拉伯语内容中的虚假信息,并使用传统和深度机器学习模型检测了 COVID-19 的虚假信息,结果表明优化 AUC 可以提高模型性能,而 XGBoost 可以最准确地检测 COVID-19 的虚假信息。
Jan, 2021
本文为了解 Twitter 用户对 COVID-19 错误信息的立场,构建了一个新的 2631 个推文注释数据集,使用 MNLI 数据集和已有的 RumourEval 和 COVIDLies 数据集进行微调,评估了模型性能。结果表明,将 MNLI 和 RumourEval 以及 COVIDLies 数据集组合进行序列微调效果最佳。
Apr, 2022
该文介绍了 GeoCoV19—— 一个包含 524 百万条推文的大规模 Twitter 数据集,通过基于地名词典的方法来推断推文的地理位置,而这一大规模、多语言、地理定位的社交媒体数据可以帮助研究社区评估社会如何共同应对这一前所未有的全球危机,以及建立计算方法来应对如识别假新闻,理解社区的知识差距,建立疾病预测和监测模型等挑战。
May, 2020
描述了 TweetsCOV19 的基本特征和分析,这是一个公开可用的包含超过 800 万推特的知识库,旨在为大量知识发现任务提供前所未有的数据集。
Jun, 2020
本文旨在探讨如何增加现有谣言验证系统所使用的证据来源。我们定义了一项新任务,即检测 Twitter 中权威机构对流言的立场,收集了来自权威时间线的证据,并构建了第一个权威对流言立场数据集。我们研究了现有数据集对于解决该任务的效用,发现它们有所用处但不足以满足需求,因此需要增加 Twitter 权威机构的对流言立场注释数据集。
Jan, 2023
本研究介绍了一个涉及巴西、印度尼西亚和尼日利亚三个中等收入国家的 COVID-19 疫苗错误信息的多语言数据集。我们采用了两种方法来开发 COVID-19 疫苗错误信息检测模型:领域特定的预训练和使用大型语言模型进行文本增强。我们的最佳错误信息检测模型相较于基准模型在宏 F1 分数上的改进范围从 2.7 到 15.9 个百分点。此外,我们将我们的错误信息检测模型应用于 2020 年至 2022 年期间来自这三个国家的 1900 万条未标记推文的大规模研究,展示了我们数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析结果表明,巴西和印度尼西亚的新冠病例数量的百分比变化与 COVID-19 疫苗错误信息率呈错位的正相关,而这三个国家之间的错误信息率之间存在显著的正相关。
Nov, 2023