CoAID: COVID-19 医疗信息误导数据集
本研究通过人工确认 10,700 个社交媒体帖子和文章的真假,并使用决策树、逻辑回归、梯度提升和支持向量机 (SVM) 等四种机器学习方法将其进行基准测试。结果表明,使用 SVM 可以获得最佳性能,F1-score 为 93.46%。研究样本涉及 COVID-19 疫情下社交媒体中的假新闻和谣言。
Nov, 2020
本文通过对超过 2.42 亿条推文的大规模计算分析,对 COVID-19 流言与准确信息的特征进行比较研究,并创建了 COVID-19 的流言分类数据集,研究发现该数据集可提高流言分类的正确率超过 9%。
Apr, 2023
为了更好地应对 COVID-19 假新闻,我们提出了一个新的假新闻数据集 MM-COVID(多语言和多维 COVID-19 假新闻数据存储库),该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析,展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。
Nov, 2020
本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集,并介绍了如何利用自动分类方法,对其中的谣言进行识别,实现了 F1 值为 0.76 的准确性,并将数据集共享在 Github 上。
Jun, 2020
本研究介绍 CovidMis20 数据集,该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文,用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测,后者的测试精度优于前者。
Sep, 2022
针对 COVID-19 在线信息误导问题,本文分析并对比了在 Twitter 上两个竞争性的 COVID-19 信息社区:误导用户和知情用户,并通过网络结构分析、语言模式等方面对他们进行了表征和分类,发现误导社区较为紧密、有组织,并可能存在大量的虚假信息宣传活动,其中大部分误导用户可能是反对疫苗接种者。
Aug, 2020
这项工作开发了 CHECKED,这是第一个关于 COVID-19 虚假信息的中文数据集,包含 2019 年 12 月至 2020 年 8 月期间的 2,104 条相关验证微博,共有 1,868,175 次转载、1,185,702 条评论和 56,852,736 次点赞。我们希望通过这个数据集,有助于研究冠状病毒的虚假信息。
Oct, 2020
该研究发表了一篇医疗虚假信息数据集的机器学习处理方法,其中包含了 317k 篇医疗文章和 3.5k 个经过事实核查的声明,并且提供了 573 个人工标注和 51k 个自动标注的声明与文章之间的映射,这些映射包括声明是否出现在给定文章中以及文章对声明的态度。该数据集可以用于医疗虚假信息的特征研究和来自不同来源的虚假信息传播的研究。
Apr, 2022
本文为了解 Twitter 用户对 COVID-19 错误信息的立场,构建了一个新的 2631 个推文注释数据集,使用 MNLI 数据集和已有的 RumourEval 和 COVIDLies 数据集进行微调,评估了模型性能。结果表明,将 MNLI 和 RumourEval 以及 COVIDLies 数据集组合进行序列微调效果最佳。
Apr, 2022
本研究介绍了一个涉及巴西、印度尼西亚和尼日利亚三个中等收入国家的 COVID-19 疫苗错误信息的多语言数据集。我们采用了两种方法来开发 COVID-19 疫苗错误信息检测模型:领域特定的预训练和使用大型语言模型进行文本增强。我们的最佳错误信息检测模型相较于基准模型在宏 F1 分数上的改进范围从 2.7 到 15.9 个百分点。此外,我们将我们的错误信息检测模型应用于 2020 年至 2022 年期间来自这三个国家的 1900 万条未标记推文的大规模研究,展示了我们数据集和模型在多个国家和语言中检测和分析疫苗错误信息的实际应用。我们的分析结果表明,巴西和印度尼西亚的新冠病例数量的百分比变化与 COVID-19 疫苗错误信息率呈错位的正相关,而这三个国家之间的错误信息率之间存在显著的正相关。
Nov, 2023