宣称检查价值检测：LLM 对标注指南的理解程度如何？

Apr, 2024

宣称检查价值检测：LLM 对标注指南的理解程度如何？

Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines?

Laura Majer, Jan Šnajder

TL;DR通过使用零 - 和少 - 次学习模型，将事实和价值评估标准直接用于提示，我们评估了 LLM 在五个不同领域的声明检测和可信度检测数据集上的预测和校准准确性，并发现最佳的提示详细程度取决于领域，提供上下文信息并不改善性能，可信度评分可以直接用于生成可靠的评级。

Abstract

The increasing threat of disinformation calls for automating parts of the fact-checking pipeline. Identifying text segments requiring fact-checking is known as claim detection (CD) and →

fact-checking pipeline claim detection claim check-worthiness detection zero- and few-shot llm prompting worthiness criteria

发现论文，激发创造

CheckThat! 2024 中的事实查找者：通过数据修剪改善 LLMs 的适用于检查的陈述检测

应用八个突出的开源语言模型（LLMs）通过精调和提示工程来从政治转录中识别值得检查的陈述，并通过两步数据修剪方法自动识别高质量训练数据实例，能够在 CheckThat！2024 的英语语言数据集方面展示有效学习和竞争性性能。

Jun, 2024

自动事实核查中的跨主题值得核实声明检测

本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化，提出了 AraCWA 模型来减轻跨主题检测具有检查价值权利要求时的性能下降，该模型通过少量学习和数据增强来为新的主题提高性能，并使用公开数据集的阿拉伯语推文，为不同的主题证明了文章提出的数据增强策略取得了显著的改进。

Dec, 2022

CLEF-2018 CheckThat！关于政治主张自动识别和验证的实验室概述。任务 1：值得核查性

该研究展示了 CLEF-2018 CheckThat！自动识别和验证政治宣言的实验室概述，其中的任务 1 集中在值得检查的问题上；任务的目标是根据是否值得检查，生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法；最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。

Aug, 2018

基于 LLM 的层次化逐步提示方法用于新闻声称的事实验证

通过实验结果表明，在虚假信息领域，经过 4 个示范样本，多种提示方法的性能可以与以往的监督模型相媲美。为了进一步提升性能，我们引入了分层逐步（HiSS）提示方法，该方法通过逐步回答多个问题来对声明进行验证，实验结果表明 HiSS 提示方法优于最新全监督方法和强少样本 ICL 基线。

Sep, 2023

借助社交言论衡量事实核查所需的声明

在线社交媒体平台的扩展导致了在线内容消费的激增，但也为传播虚假主张和错误信息铺平了道路。因此，需求不断扩大，需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证，但是在线内容的数量常常超过他们的能力范围，使得他们无法及时验证每一个声明。因此，至关重要的是确定哪些主张值得进行事实核查，并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查，这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题，但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此，我们引入了一个新的任务，即细粒度的主张核查价值，它基于所有这些因素，并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt，用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试，该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后，我们报告了对结果的彻底分析和人员评估，验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。

Sep, 2023

究竟是否 “越大越好”？应用于应对虚假信息的索赔检测语言模型的全面研究

本研究比较了经过调整的模型和极大语言模型在可检测可信度主张的任务中的性能。通过使用包含不同来源和风格的文本构建了一个多语种和多主题数据集，并基于此进行了基准分析，确定了最通用的多语种和多主题主张检测器。我们选择了三个最先进的模型进行了可检测可信度主张任务的调整，并选择了三个无需任何调整的最先进极大语言模型。通过对模型进行修改以适应多语种环境，并进行了广泛的实验和评估。在域内和跨域情景中，我们评估了所有模型的准确性、召回率和 F1 分数。我们的结果表明，尽管在自然语言处理领域取得了技术进步，但针对可检测可信度主张任务的调整模型在跨域设置中仍然优于零样本方法。

Nov, 2023

CheckThat! 实验室 2022 年：推文文本的可信度标识

本文研究了使用 transformer 模型（BERT-m 和 XLM-RoBERTa-base）对社交媒体中存在的误导性信息进行事实核查的方法，实验结果表明，在荷兰语和英语中，transformer 模型优于 SVM 和 RF 模型，但在西班牙语中，情况则不同。

Jul, 2022

使用弱监督的神经网络排名：寻找用于事实检查的句子

本研究提出了基于神经网络的句子排名模型，在选择句子时考虑了其语法依赖和语义表达，并使用弱监督技术进行了大规模训练，结果表明模型的效果在多个评价指标上均优于现有基线方法，通过实证分析发现值得检查的句子中的语法依赖项相较于非检查句子具有明显的重叠规律。

Mar, 2019

跨语言转移学习在推特上识别值得检查的声明

本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型，我们系统地比较了六种方法。结果表明，对于一些语言对，零 - shot 跨语言转移是可能的，并且可以与在目标语言上训练的单语模型一样好。

Nov, 2022

CiteCaseLAW：法律辅助写作中基于案例法的引用可信度检测

通过引入一个由 Caselaw Access Project（CAP）提供的标记数据集，研究了 178M 个句子中的法律领域中值得引用检测的问题及其解决方案，本研究的目的是作为今天的引文推荐系统的初始步骤，以减轻提取足够引文语境的负担。研究发现，相对其他模型，领域特定的预训练模型在引用值检测任务中表现更好，拥有 88％的 F1 得分。

May, 2023