CHECKWHY:通过论证结构进行因果事实验证
本研究关注于政治辩论中的言论,并研究了对言论进行上下文建模(涵盖辩论和事实核查解释文档)的影响。实验结果表明,建模辩论方面的上下文最为重要,可以比现有的先进模型提高10个百分点以上。
Apr, 2021
本研究提出 Claim-Dissector 模型,使用潜在变量模型进行事实检验和事实分析,探讨哪些来源对所有权利要求具有相关性,以及权利要求的真实性. 该模型达到了 FEVER 数据集的最先进的结果,并提供了可解释性和自动检测具有许多证据的权利要求的能力。
Jul, 2022
研究表明,利用时间信息可以对基于证据的事实检验的认证过程起到积极的正向影响,通过对构建共享时间轴的发布日期和时间表达式进行基础建设可以建立索赔和证据之间的时间关系,从而提供给基于循环神经网络(RNN)和转换器(Transformer)的分类器时间信息以进行认证。
Feb, 2023
本文提出了一种Program-Guided Fact-Checking(ProgramFC)模型,通过生成推理程序指导验证过程并将每个子任务委托给相应的子任务处理程序,将复杂的索赔分解为更简单的子任务,从而使我们的模型具有解释性和数据效率,并在两个具有挑战性的事实核查数据集上进行评估,展现了优于七种事实核查基线的表现,通过显式输出程序有利于人工调试。
May, 2023
本研究论文介绍了一种名为FOLK(First-Order-Logic-Guided Knowledge-Grounded Reasoning)的方法,用大型语言模型(LLMs)进行复杂声明的验证和解释生成,同时不需要基于人工标注的证据。该方法通过将声明转化为由谓词组成的一阶逻辑子句,每个谓词对应需验证的一个子声明,并利用一组知识基础的问答对进行一阶逻辑引导的推理,从而做出真实性预测并生成解释以说明其决策过程,使模型高度解释性。实验结果表明,FOLK在涵盖各种声明验证挑战的三个数据集上优于强基线模型。
Oct, 2023
构建一个可解释的事实验证系统在复杂的多跳场景中始终受到相关高质量数据集的缺失的阻碍。为了解决这个问题,我们提出了EX-FEVER,一个用于多跳可解释事实验证的先驱数据集。我们的数据集包括超过60,000个主张,每个主张都涉及2跳和3跳推理,每个主张都有一个真实性标签和一个解释,概述了支持真实性分类的推理路径。
Oct, 2023
开放领域可解释性事实核查系统在真实世界场景中验证索赔并为核查决策生成因果解释,表现出色的可靠结果及稳定准确的判决,并提供简洁令人信服的实时解释。
Dec, 2023
在这项研究中,我们探索了少样本学习模型在声明验证中的潜力,并提出了MAPLE(Micro Analysis of Pairwise Language Evolution)方法,通过使用小型seq2seq模型和新颖的语义度量方法,通过微观语言演化路径来改进声明验证的性能。MAPLE在三个事实核查数据集上都显著优于当前最佳方法SEED、PET和LLaMA 2,并且对数据注释和计算资源的要求较低。
Jan, 2024
我们提出了一个基于逻辑推理的框架,用于将宣称或传言与证据分解为验证所需的原子推理步骤,并通过维基百科的合成数据集和在Twitter上流传的谣言的真实数据集对GPT-3.5-Turbo和GPT-4(以下简称ChatGPT)的推理能力进行评估,结果显示ChatGPT在因果推理方面存在困难,但通过使用手动Chain of Thought(CoT)而不是Zero Shot(ZS)和ZS CoT方法可以在一定程度上缓解这一问题。我们的研究为ChatGPT的推理过程不太可能与人类类似的推理过程相一致,并且指出LLMs需要在高风险的实际任务(如宣称验证)中进行更严格的评估,以区分炒作和实际能力。
Feb, 2024