MythQA: 基于查询的大规模检查值得怀疑的主张检测通过多答案开放域问答

Jul, 2023

MythQA: 基于查询的大规模检查值得怀疑的主张检测通过多答案开放域问答

MythQA: Query-Based Large-Scale Check-Worthy Claim Detection through Multi-Answer Open-Domain Question Answering

Yang Bai, Anthony Colas, Daisy Zhe Wang

TL;DR提供可疑的虚假信息以供事实核查系统或专家核查，通过引入 MythQA 任务，包括多答案开放领域问答、针对基于查询的大规模检测值得核查的虚假声明的对立立场挖掘，构建了 TweetMythQA 数据集进行研究，提供基准系统并评估现有的自然语言处理模型，为未来模型的改进提供了关键挑战。

Abstract

check-worthy claim detection aims at providing plausible misinformation to downstream fact-checking systems or human experts to check. This is a crucial step toward accelerating the →

发现论文，激发创造

自动事实检查中不同任务的丰富注释语料库

基于机器学习的自动事实核查是识别网络上的虚假信息的一种有希望的方法，针对现有的事实核查语料库规模小、注释不详细、局限于单一领域等问题，本研究提出了一个大规模、多领域的可信事实核查语料库，并进行了模型构建和分析。

Oct, 2019

跨语言匹配推文与适用的事实检查

本研究使用多语言变换器模型和嵌入技术（如XLM-RoBERTa、LaBSE和SBERT等）自动寻找社交媒体帖子（推文）中已经被事实检查过的主张。在不同语言设置中，我们进行了分类和检索实验，并取得了令人满意的结果。我们也发现处理不同语言时存在一些NLP挑战，并为未来的研究提供了一个新的事实检查和相应推文的数据集。

Feb, 2022

利用抽象提取技术进行事实核查声明检测

在社交媒体如此发达的时代，我们提出了一个新的流程，其中部分自动化事实检查的生命周期可以节省人力和高认知任务。我们的方法是利用抽象摘要生成简洁的查询，这些查询可以在基于现有已核查实事的数据集的检索系统中执行。通过使用现有的摘要模型进行微调和开箱既食的摘要模型，我们获得了具有更好的检索表现，检索准确率提高了3倍，而基于原文查询的准确率仅为10％。

Sep, 2022

在社交媒体中检测先前经过事实检查的声明

通过对社交媒体上的观点进行众包事实核查，并运用改进的自适应训练方法进行学习，以建立一个端到端的自动事实核查框架来解决训练数据稀缺的问题，并较之现有技术提升 2 个百分点。

Oct, 2022

自动事实核查中的跨主题值得核实声明检测

本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化，提出了AraCWA模型来减轻跨主题检测具有检查价值权利要求时的性能下降，该模型通过少量学习和数据增强来为新的主题提高性能，并使用公开数据集的阿拉伯语推文，为不同的主题证明了文章提出的数据增强策略取得了显著的改进。

Dec, 2022

通过问答实现的基于5W方面的事实验证

本文提出了一个基于5W问答的可解释性事实验证框架，使用语义角色标记系统定位5W并生成QA对，我们获得了一个半自动生成的FACTIFY-5WQA数据集，并提出了一个基线QA系统自动定位从证据文件中的答案。最后，我们提出了一个强大的事实验证系统，可以对改写的声明进行自动验证。

May, 2023

AVeriTeC：一份集合了网络证据的真实世界主张验证数据集

本文介绍了一个新的数据集AVeriTeC，包含4,568个来自50个不同机构的真实事实核查内容，每个内容都包含了来自在线可用资源的支持性证据和文本理由，以及多轮注释过程中的评审结果，提供了一个基于多个问题回答步骤的基线和模型评估，旨在弥补目前自动事实核查数据集的缺陷。

May, 2023

借助社交言论衡量事实核查所需的声明

在线社交媒体平台的扩展导致了在线内容消费的激增，但也为传播虚假主张和错误信息铺平了道路。因此，需求不断扩大，需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证，但是在线内容的数量常常超过他们的能力范围，使得他们无法及时验证每一个声明。因此，至关重要的是确定哪些主张值得进行事实核查，并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查，这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题，但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此，我们引入了一个新的任务，即细粒度的主张核查价值，它基于所有这些因素，并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt，用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试，该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后，我们报告了对结果的彻底分析和人员评估，验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。

Sep, 2023

大型语言模型的自动索赔匹配：在打击虚假信息中赋予事实检查员权力

通过使用FACT-GPT框架，我们介绍了一种自动化事实核查的方法，该方法利用大型语言模型(LLMs)的主张匹配阶段来识别新的社交媒体内容，无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明，我们的精细调节的LLMs在主张匹配任务中与更大型的预训练LLMs的性能相媲美，与人工标注结果密切一致。

Oct, 2023

自动事实核查的主张检测：关于单语、多语和跨语言研究的调查

自动事实核查引起了过去几十年的广泛关注，由于在线平台上虚假信息的扩散增加。本调查主要关注多语言数据和方法，讨论现有努力检测需求核查的言论。我们提出了一项综合调查，介绍了最新的多语言言论检测研究，主要涉及可验证性，优先级和相似性三个问题因素。此外，我们详细概述了现有的多语言数据集，以及存在的挑战，并提出可能的未来发展方向。

Jan, 2024