自动事实核查中的跨主题值得核实声明检测
该研究展示了 CLEF-2018 CheckThat!自动识别和验证政治宣言的实验室概述,其中的任务 1 集中在值得检查的问题上;任务的目标是根据是否值得检查,生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法;最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。
Aug, 2018
在线社交媒体平台的扩展导致了在线内容消费的激增,但也为传播虚假主张和错误信息铺平了道路。因此,需求不断扩大,需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证,但是在线内容的数量常常超过他们的能力范围,使得他们无法及时验证每一个声明。因此,至关重要的是确定哪些主张值得进行事实核查,并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查,这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题,但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此,我们引入了一个新的任务,即细粒度的主张核查价值,它基于所有这些因素,并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt,用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试,该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后,我们报告了对结果的彻底分析和人员评估,验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。
Sep, 2023
该论文总结了 CheckThat! Lab 在 CLEF 2019 中的活动,包含两种语言的两个任务,分别是对政治辩论或演讲中的声明进行事实核查的优先级预测 (Task 1) 和针对指定声明的事实核查,包括网页排名、分类、摘录及事实确定 (Task 2),并通过学习排序技术、分类器等方式,展示了这些任务中最具效果的方法。同时,将所有实验数据集和评估脚本公开发布给研究社区,以便在事实核查和声明验证方面再开展进一步的研究。
Sep, 2021
本研究提出了基于神经网络的句子排名模型,在选择句子时考虑了其语法依赖和语义表达,并使用弱监督技术进行了大规模训练,结果表明模型的效果在多个评价指标上均优于现有基线方法,通过实证分析发现值得检查的句子中的语法依赖项相较于非检查句子具有明显的重叠规律。
Mar, 2019
ClaimRank 是一个在线系统,旨在检测值得核查的声明,可适用于不同类型的文本,如政治辩论、采访或新闻文章等,支持阿拉伯语和英语,并从九个知名的事实核查组织(PolitiFact、FactCheck、ABC、CNN、NPR、NYT、芝加哥论坛报、卫报和华盛顿邮报)的实际注释数据中训练,实现了优先考虑需要事实核查的声明的目的。
Apr, 2018
通过使用零 - 和少 - 次学习模型,将事实和价值评估标准直接用于提示,我们评估了 LLM 在五个不同领域的声明检测和可信度检测数据集上的预测和校准准确性,并发现最佳的提示详细程度取决于领域,提供上下文信息并不改善性能,可信度评分可以直接用于生成可靠的评级。
Apr, 2024
本文研究了使用 transformer 模型(BERT-m 和 XLM-RoBERTa-base)对社交媒体中存在的误导性信息进行事实核查的方法,实验结果表明,在荷兰语和英语中,transformer 模型优于 SVM 和 RF 模型,但在西班牙语中,情况则不同。
Jul, 2022
本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零 - shot 跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样好。
Nov, 2022
本文研究了自动事实检查的问题,关注上下文和语篇信息的影响。研究并解决了两个相关任务:检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统,在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务,并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模,考虑语境元信息。从社区论坛中关注答案验证的事实检查任务,并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集,并进行了广泛的实验评估,确认两种信息 (尤其是上下文特征) 发挥重要作用。
Aug, 2019
本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集,并基于此进行了基准分析,确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整,并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境,并进行了广泛的实验和评估。在域内和跨域情景中,我们评估了所有模型的准确性、召回率和 F1 分数。我们的结果表明,尽管在自然语言处理领域取得了技术进步,但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。
Nov, 2023