MultiFC: 一个真实世界的多领域数据集,用于基于证据的声明事实核查
本研究介绍了 X-FACT 数据集,这是目前最大的公开的多语言事实验证数据集,其中包含 25 种语言的短语句,并由专业事实检查者标记真实性,数据集包含多语言评估基准测试,并使用现代化的多语言变压器模型开发了多个自动事实检查模型,实证表明模型的最佳性能 F1 分数约为 40%,因此是评估多语言事实检查模型的挑战性基准测试。
Jun, 2021
本研究提供 FACTIFY2 这一多模态事实核查数据集以及相关算法,并使用新数据源和添加讽刺文章来改进 FACTIFY1,FACTIFY2 具有 50,000 个新实例数据,包含支持、无证据和驳斥三个分类以及文本和视觉数据的三个子分类,使用基于 BERT 和 Vision Transformer 的基础模型的测试集 F1 分数为 65%。
Apr, 2023
我们提出了一种端到端的多模态事实核查和解释生成方法,利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性,并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg,这是一个大规模数据集,包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验,以建立基准性能,并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知,我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。
May, 2022
本文提出了 Fin-Fact,这是一个在金融领域内进行多模态事实检查的基准数据集,它包含专业事实检查员的注释和证明,旨在对抗金融领域的错误信息,增强事实性分析,提高金融报告和新闻传播的透明度和信任,并通过提供深入的解释和见解,使用户能够理解事实检查决策背后的推理,验证主张的可信度,以及促进对事实检查过程的信任。
Sep, 2023
本文介绍了一个新的数据集 AVeriTeC,包含 4,568 个来自 50 个不同机构的真实事实核查内容,每个内容都包含了来自在线可用资源的支持性证据和文本理由,以及多轮注释过程中的评审结果,提供了一个基于多个问题回答步骤的基线和模型评估,旨在弥补目前自动事实核查数据集的缺陷。
May, 2023
本文介绍了一个大规模的事实验证数据集 FAVIQ,并指出目前最先进的模型并不能完全解决该任务,而基于该数据的训练有助于事实核查,能在专业事实核查方面胜过目前广泛使用的数据集 FEVER 或领域内数据,为自然语言理解提供了一个具有挑战性的基准。
Jul, 2021
在数字时代,从互联网上获取健康相关的建议已成为一种常见做法。然而,评估在线医学声明的可靠性并找到相应的证据变得越来越具有挑战性。本文介绍了一种新颖的、由医学专家标记为真实性的并提供来自临床研究的证据支持的 750 个健康相关声明的数据集。我们分析了该数据集的特征和挑战,并提供了基于不同方法的基准模型,研究了它们的性能并讨论了相关发现,以帮助推进这一任务的自动化。该数据集可用于与自动事实核查相关的机器学习任务,例如证据检索、真实性预测和解释生成。
Sep, 2023
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
社交媒体的迅速增长导致虚假新闻泛滥,因此自动检测和验证虚假信息的研究变得尤为重要。本研究介绍了 Factify 2 任务的结果,提供了一个多模态事实验证和讽刺新闻数据集,并使用基于多模态关系将社交媒体索求与支持文件进行比较,最终得到 81.82% 的最高 F1 分数。
Jul, 2023