自动事实核查中的跨主题值得核实声明检测

Dec, 2022

自动事实核查中的跨主题值得核实声明检测

Check-worthy Claim Detection across Topics for Automated Fact-checking

Amani S. Abumansour, Arkaitz Zubiaga

TL;DR本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化，提出了 AraCWA 模型来减轻跨主题检测具有检查价值权利要求时的性能下降，该模型通过少量学习和数据增强来为新的主题提高性能，并使用公开数据集的阿拉伯语推文，为不同的主题证明了文章提出的数据增强策略取得了显著的改进。

Abstract

An important component of an automated fact-checking system is the claim check-worthiness detection system, which ranks sentences by prioritising them based on their need to be checked. Despite a body of research tackling the task, previous research has overlooked the challenging natur

automated fact-checking system claim check-worthiness detection aracwa model few-shot learning data augmentation

发现论文，激发创造

CLEF-2018 CheckThat！关于政治主张自动识别和验证的实验室概述。任务 1：值得核查性

该研究展示了 CLEF-2018 CheckThat！自动识别和验证政治宣言的实验室概述，其中的任务 1 集中在值得检查的问题上；任务的目标是根据是否值得检查，生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法；最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。

Aug, 2018

借助社交言论衡量事实核查所需的声明

在线社交媒体平台的扩展导致了在线内容消费的激增，但也为传播虚假主张和错误信息铺平了道路。因此，需求不断扩大，需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证，但是在线内容的数量常常超过他们的能力范围，使得他们无法及时验证每一个声明。因此，至关重要的是确定哪些主张值得进行事实核查，并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查，这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题，但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此，我们引入了一个新的任务，即细粒度的主张核查价值，它基于所有这些因素，并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt，用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试，该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后，我们报告了对结果的彻底分析和人员评估，验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。

Sep, 2023

CLEF-2019 CheckThat!：声明自动识别和验证概述

该论文总结了 CheckThat! Lab 在 CLEF 2019 中的活动，包含两种语言的两个任务，分别是对政治辩论或演讲中的声明进行事实核查的优先级预测 (Task 1) 和针对指定声明的事实核查，包括网页排名、分类、摘录及事实确定 (Task 2)，并通过学习排序技术、分类器等方式，展示了这些任务中最具效果的方法。同时，将所有实验数据集和评估脚本公开发布给研究社区，以便在事实核查和声明验证方面再开展进一步的研究。

Sep, 2021

使用弱监督的神经网络排名：寻找用于事实检查的句子

本研究提出了基于神经网络的句子排名模型，在选择句子时考虑了其语法依赖和语义表达，并使用弱监督技术进行了大规模训练，结果表明模型的效果在多个评价指标上均优于现有基线方法，通过实证分析发现值得检查的句子中的语法依赖项相较于非检查句子具有明显的重叠规律。

Mar, 2019

ClaimRank：在阿拉伯语和英语中检测值得核实的声明

ClaimRank 是一个在线系统，旨在检测值得核查的声明，可适用于不同类型的文本，如政治辩论、采访或新闻文章等，支持阿拉伯语和英语，并从九个知名的事实核查组织（PolitiFact、FactCheck、ABC、CNN、NPR、NYT、芝加哥论坛报、卫报和华盛顿邮报）的实际注释数据中训练，实现了优先考虑需要事实核查的声明的目的。

Apr, 2018

宣称检查价值检测：LLM 对标注指南的理解程度如何？

通过使用零 - 和少 - 次学习模型，将事实和价值评估标准直接用于提示，我们评估了 LLM 在五个不同领域的声明检测和可信度检测数据集上的预测和校准准确性，并发现最佳的提示详细程度取决于领域，提供上下文信息并不改善性能，可信度评分可以直接用于生成可靠的评级。

Apr, 2024

CheckThat! 实验室 2022 年：推文文本的可信度标识

本文研究了使用 transformer 模型（BERT-m 和 XLM-RoBERTa-base）对社交媒体中存在的误导性信息进行事实核查的方法，实验结果表明，在荷兰语和英语中，transformer 模型优于 SVM 和 RF 模型，但在西班牙语中，情况则不同。

Jul, 2022

跨语言转移学习在推特上识别值得检查的声明

本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型，我们系统地比较了六种方法。结果表明，对于一些语言对，零 - shot 跨语言转移是可能的，并且可以与在目标语言上训练的单语模型一样好。

Nov, 2022

使用上下文和语篇信息进行自动事实检查

本文研究了自动事实检查的问题，关注上下文和语篇信息的影响。研究并解决了两个相关任务：检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统，在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务，并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模，考虑语境元信息。从社区论坛中关注答案验证的事实检查任务，并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集，并进行了广泛的实验评估，确认两种信息 (尤其是上下文特征) 发挥重要作用。

Aug, 2019

究竟是否 “越大越好”？应用于应对虚假信息的索赔检测语言模型的全面研究

本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集，并基于此进行了基准分析，确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整，并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境，并进行了广泛的实验和评估。在域内和跨域情景中，我们评估了所有模型的准确性、召回率和 F1 分数。我们的结果表明，尽管在自然语言处理领域取得了技术进步，但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。

Nov, 2023