一份包含人类和机器洞见的法国虚假新闻多标签数据集

COLINGMar, 2024

一份包含人类和机器洞见的法国虚假新闻多标签数据集

A Multi-Label Dataset of French Fake News: Human and Machine Insights

Benjamin Icard, François Maine, Morgane Casanova, Géraud Faye, Julien Chanson...

TL;DR我们提供了一个被 8 名注解者使用 11 个标签注释的 100 份文件的语料库，该文件语料库从 17 个被专家机构认为不可靠的法国新闻来源中选取。通过收集比通常更多的标签和注解者，我们可以确定人类认为是伪新闻特征，并将其与自动分类器的预测进行比较。我们使用 Gate Cloud 进行主题和体裁分析，显示语料库中类似讽刺的文本的普遍性。然后，我们使用主观性分析器 VAGO 以及其神经版本，以澄清主观标签和伪新闻标签之间的关联。可在以下 URL 在线获取注释数据集：this https URL

Abstract

We present a corpus of 100 documents, OBSINFOX, selected from 17 sources of french press considered unreliable by expert agencies, annotated using 11 labels by 8 annotators. By collecting more labels than usual, by more annotators than is typically done, we can identify features that h

fake news multi-labels subjectivity vagueness french press

发现论文，激发创造

揭露宣传：通过比较人类标注和机器分类的文体线索进行分析

该研究调查了宣传语言及其风格特征，提出了 PPN 数据集，包括多源、多语言、多模态的新闻文章，从被专家机构确定为宣传来源的网站中提取。通过人工注释实验，结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术，用于识别注释者使用的线索，并将它们与机器分类进行比较，包括衡量言语模糊性和主观性的分析工具 VAGO、作为基准的 TF-IDF 以及四种不同的分类器：两种基于 RoBERTa 的模型、使用语法的 CATS 和结合句法和语义特征的 XGBoost。

Feb, 2024

NELA-GT-2018：一个用于误报研究的大型多标签新闻数据集

本文介绍了一个包含 713k 个文章的数据集，从 194 个新闻和媒体来源中收集，包括主流、极端党派和阴谋论来源，并加入了来自 8 个不同评估网站的基础真实度评级，覆盖了多个真实度维度，包括可靠性、偏见、透明度、遵循新闻标准和消费者信任等。

Apr, 2019

针对 “假新闻” 的注释方案重建及日本假新闻数据集

研究假新闻检测任务的众多假新闻数据集基本关注新闻的真实性，但这样单方面是无法解释 “假新闻” 的，作者提出了基于细节调查的新注释方案，以细分标注的方式捕获假新闻的多个方面，进一步对其进行深入理解和研究，并构建并发布了第一个日本假新闻数据集。

Apr, 2022

FakeCovid -- 一份涵盖多语言和跨领域的 COVID-19 事实核查新闻数据集

本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集，并介绍了如何利用自动分类方法，对其中的谣言进行识别，实现了 F1 值为 0.76 的准确性，并将数据集共享在 Github 上。

Jun, 2020

自动检测虚假新闻

本文聚焦于自动识别在线新闻中的虚假内容，首先介绍了用于虚假新闻检测的新颖数据集，描述了收集、注释和验证过程，并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次，本文开展了一系列学习实验以构建准确的虚假新闻检测器，并比较了手动和自动识别虚假新闻的结果。

Aug, 2017

虚假新闻的预测语言线索：一个社会人工智能问题

使用机器学习算法分析媒体新闻的语言特征，以区分真假新闻，主要解决神经假新闻生成、机器生成的标题、文本和图像标题之间的语义矛盾等问题。同时提出应用特征集和类别、特征之间的相关性计算相关属性评估指标和计算属性变量的协方差指标来模拟这些问题。其中独特、负面、积极和基数数字特征在度量中得分高，能够提供高的 AUC 和 F1-score。

Nov, 2022

Factify 2: 一份多模态假新闻和讽刺新闻数据集

本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法，并使用新数据源和添加讽刺文章来改进 FACTIFY1，FACTIFY2 具有 50,000 个新实例数据，包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类，使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65％。

Apr, 2023

FineFake：细粒度多领域假新闻检测的知识增强数据集

为了理解不同领域的虚假信息，我们引入了一个新颖的多领域知识增强基准，名为 FineFake，它包含 16909 个数据样本，涵盖六个语义主题和八个平台，并提供多模态内容，潜在社会背景，半手动验证的常见知识和超越传统二进制标签的细粒度注释。基于 FineFake，我们还提出了三个具有挑战性的任务，并提出了一个知识增强的领域自适应网络，在各种情况下对 FineFake 进行了广泛的实验证明，为未来的研究提供了准确可靠的基准。整个 FineFake 项目可以在 https://github.com/Accuser907/FineFake 上作为开源资源进行访问。

Mar, 2024

Factify 2: 多模态假新闻检测研究结果

社交媒体的迅速增长导致虚假新闻泛滥，因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果，提供了一个多模态事实验证和讽刺新闻数据集，并使用基于多模态关系将社交媒体索求与支持文件进行比较，最终得到 81.82% 的最高 F1 分数。

Jul, 2023

r/Fakeddit: 细粒度虚假新闻检测的新多模态基准数据集

使用机器学习分类模型是打击假新闻传播的有效方法，但缺乏有效的全面数据集一直是假新闻研究和检测模型发展的问题。Fakeddit 是一个新颖的多模态数据集，包括一百万个多个类别的假新闻样本，并通过远程监督进行两种，三种和六种分类。我们构建了混合文本 + 图像模型并进行了多个变体的分类实验，证明了 Fakeddits 的多模式和精细分类的重要性。

Nov, 2019