COVID-Fact: COVID-19 疫情相关真实声明的事实提取和验证
本文介绍了一个新的公开可用的数据集 FEVER:事实提取和验证,它由 185,445 个主张组成,通过更改从维基百科中提取的句子并在不知道它们来自哪个句子的情况下进行验证。该数据集的挑战在于它的标注具有高度不确定性,作者开发了一种流水线方法对其进行测试,最佳的准确性达到了 31.87%。因此,FEVER 是一个具有挑战性的测试平台,可以帮助促进对文本来源的声明验证的进展。
Mar, 2018
科学的论断验证是一个新的任务,其目的是从研究文献中选择包含支持或驳斥给定科学论断的摘要,并确定证据。为了研究这个任务,我们构建了 SciFact 数据集,其中包括 1.4K 个专家撰写的科学论断,以及用标签和论据注释的含有证据的摘要。我们开发了 SciFact 的基线模型,并证明简单的领域适应技术可以大大提高性能,并能够使用 CORD-19 语料库鉴定与 COVID-19 相关的声明。我们的实验表明,SciFact 将为设计用于检索和推理包含专业领域知识的语料库的新系统提供具有挑战性的测试平台。
Apr, 2020
本文介绍了一份第一份多语言、跨领域的 COVID-19 已核实新闻文章数据集,并介绍了如何利用自动分类方法,对其中的谣言进行识别,实现了 F1 值为 0.76 的准确性,并将数据集共享在 Github 上。
Jun, 2020
本研究通过人工确认 10,700 个社交媒体帖子和文章的真假,并使用决策树、逻辑回归、梯度提升和支持向量机 (SVM) 等四种机器学习方法将其进行基准测试。结果表明,使用 SVM 可以获得最佳性能,F1-score 为 93.46%。研究样本涉及 COVID-19 疫情下社交媒体中的假新闻和谣言。
Nov, 2020
CFEVER 是一个中文数据集,用于事实提取和验证,利用中文维基百科的内容手动创建了 30,012 个声明,并标记为 “支持”、“反驳” 或 “信息不足”,同时提供详细的证据句子。这个数据集通过 Fleiss' kappa 值(0.7934)的五向评判员一致性达到了新的高度,通过与现有方法和基准测试的实验表明,CFEVER 是一个严格的事实提取和验证基准,可用于开发自动化系统减少人工事实核查工作量。
Feb, 2024
我们提出一个名为 Check-COVID 的新的事实核查基准,用于验证新闻中有关 COVID-19 的声明,需要使用来自科学文章的证据。该基准包含 1,504 个有关冠状病毒的专家注释新闻声明及其句子级证据,并包括从期刊文章中提取(记者写作)和组成(注释器写作)声明。使用针对事实核查的专用系统和 GPT-3.5 进行的实验,分别在这个任务上获得了 76.99 和 69.90 的 F1 分数,揭示了自动进行事实核查的挑战性,表明很重要的是对领域数据的理解和应用。我们的数据和模型在此 https 网址上公开发布。
May, 2023
介绍了 CLIMATE-FEVER 数据集,旨在促进和鼓励改进为气候特定声明检索证据支持的算法,应对语言理解挑战,并帮助减轻虚假信息对气候变化的影响。
Dec, 2020
该研究发表了一篇医疗虚假信息数据集的机器学习处理方法,其中包含了 317k 篇医疗文章和 3.5k 个经过事实核查的声明,并且提供了 573 个人工标注和 51k 个自动标注的声明与文章之间的映射,这些映射包括声明是否出现在给定文章中以及文章对声明的态度。该数据集可以用于医疗虚假信息的特征研究和来自不同来源的虚假信息传播的研究。
Apr, 2022
本文介绍了一个大规模的事实验证数据集 FAVIQ,并指出目前最先进的模型并不能完全解决该任务,而基于该数据的训练有助于事实核查,能在专业事实核查方面胜过目前广泛使用的数据集 FEVER 或领域内数据,为自然语言理解提供了一个具有挑战性的基准。
Jul, 2021
在数字时代,从互联网上获取健康相关的建议已成为一种常见做法。然而,评估在线医学声明的可靠性并找到相应的证据变得越来越具有挑战性。本文介绍了一种新颖的、由医学专家标记为真实性的并提供来自临床研究的证据支持的 750 个健康相关声明的数据集。我们分析了该数据集的特征和挑战,并提供了基于不同方法的基准模型,研究了它们的性能并讨论了相关发现,以帮助推进这一任务的自动化。该数据集可用于与自动事实核查相关的机器学习任务,例如证据检索、真实性预测和解释生成。
Sep, 2023