FakeCovid -- 一份涵盖多语言和跨领域的 COVID-19 事实核查新闻数据集

Jun, 2020

FakeCovid -- 一份涵盖多语言和跨领域的 COVID-19 事实核查新闻数据集

FakeCovid -- A Multilingual Cross-domain Fact Check News Dataset for COVID-19

PDF

Gautam Kishore Shahi, Durgesh Nandini

TL;DR本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集，并介绍了如何利用自动分类方法，对其中的谣言进行识别，实现了 F1 值为 0.76 的准确性，并将数据集共享在 Github 上。

Abstract

In this paper, we present a first multilingual cross-domain dataset of 5182 fact-checked news articles for →

multilingual cross-domain fact-checked news covid-19 fake news detection

发现论文，激发创造

跨语言 COVID-19 虚假新闻检测

本文介绍了一种利用已经被 fact-check 过的英文新闻数据集，通过建立一个名为 CrossFake 的深度学习框架来识别汉语低資源下的 COVID-19 虚假信息。经实验结果表明，CrossFake 在跨语言环境下的情况下比其他单语和跨语言虚假信息检测器更有效。

Oct, 2021

MM-COVID: 用于打击 COVID-19 虚假信息的多语言和多模态数据存储库

为了更好地应对 COVID-19 假新闻，我们提出了一个新的假新闻数据集 MM-COVID（多语言和多维 COVID-19 假新闻数据存储库），该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析，展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。

Nov, 2020

打击信息疫情：COVID-19 虚假新闻数据集

本研究通过人工确认 10,700 个社交媒体帖子和文章的真假，并使用决策树、逻辑回归、梯度提升和支持向量机 (SVM) 等四种机器学习方法将其进行基准测试。结果表明，使用 SVM 可以获得最佳性能，F1-score 为 93.46%。研究样本涉及 COVID-19 疫情下社交媒体中的假新闻和谣言。

Nov, 2020

COVID-Fact: COVID-19 疫情相关真实声明的事实提取和验证

我们介绍了一个名为 COVID-Fact 的 FEVER 风格数据集，它包含 4086 条有关 COVID-19 大流行的索赔信息，我们利用自动方法检测真实索赔和它们的来源文章，并使用自动方法生成反驳索赔，有助于检测 COVID-19 的一般错误信息。

Jun, 2021

中国 COVID-19 虚假新闻数据集

这项工作开发了 CHECKED，这是第一个关于 COVID-19 虚假信息的中文数据集，包含 2019 年 12 月至 2020 年 8 月期间的 2,104 条相关验证微博，共有 1,868,175 次转载、1,185,702 条评论和 56,852,736 次点赞。我们希望通过这个数据集，有助于研究冠状病毒的虚假信息。

Oct, 2020

CovidMis20: 使用深度学习模型在 Twitter 推文上检测 COVID-19 的误信息

本研究介绍 CovidMis20 数据集，该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文，用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测，后者的测试精度优于前者。

Sep, 2022

Check-COVID: 用科学证据核实 COVID-19 新闻声明

我们提出一个名为 Check-COVID 的新的事实核查基准，用于验证新闻中有关 COVID-19 的声明，需要使用来自科学文章的证据。该基准包含 1,504 个有关冠状病毒的专家注释新闻声明及其句子级证据，并包括从期刊文章中提取（记者写作）和组成（注释器写作）声明。使用针对事实核查的专用系统和 GPT-3.5 进行的实验，分别在这个任务上获得了 76.99 和 69.90 的 F1 分数，揭示了自动进行事实核查的挑战性，表明很重要的是对领域数据的理解和应用。我们的数据和模型在此 https 网址上公开发布。

May, 2023

Monant 医疗错误信息数据集：将文章映射到事实核查的声明

该研究发表了一篇医疗虚假信息数据集的机器学习处理方法，其中包含了 317k 篇医疗文章和 3.5k 个经过事实核查的声明，并且提供了 573 个人工标注和 51k 个自动标注的声明与文章之间的映射，这些映射包括声明是否出现在给定文章中以及文章对声明的态度。该数据集可以用于医疗虚假信息的特征研究和来自不同来源的虚假信息传播的研究。

Apr, 2022

COVID-19 的真假社交媒体帖子之书面和口头语料库

该研究通过分析文本和语音数据，研究了假新闻和真实新闻的语言特征，结果发现了一系列可以区分假新闻和真实新闻的语言特征，对于理解语言在塑造信任、社交媒体互动和假新闻传播中的作用提供了有价值的见解。

Oct, 2023

Factify 2: 一份多模态假新闻和讽刺新闻数据集

本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法，并使用新数据源和添加讽刺文章来改进 FACTIFY1，FACTIFY2 具有 50,000 个新实例数据，包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类，使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65％。

Apr, 2023