基于证据的可解释开放领域事实核查与大型语言模型
基于大型语言模型(LLMs)的事实性评估框架 OpenFactCheck,包括自定义自动事实检查器 CUSTCHECKER、多角度评估 LMM 事实性的统一评估框架 LLMEVAL 和使用人工标注数据集评估自动事实检查器验证结果可靠性的 CHECKEREVAL。
May, 2024
基于大型语言模型,从网络中自动检索和总结证据,以解决可解释的事实检查系统中提供足够和相关证据的挑战,并通过 RU22Fact 构建一个新颖的多语言可解释的事实检查数据集,基于该数据集开发出了一个端到端的可解释的事实检查系统,实验结果表明优化的证据可以提高事实检查性能,并显示端到端声明验证和解释生成任务有进一步进展的可能性。
Mar, 2024
本文介绍了一种新型测试集 SciFact-Open,通过信息检索中的池化技术和四种先进的科学主张验证模型的预测,评估了科学主张验证系统在 50 万个研究摘要的语料库上的表现,发现在 SciFact-Open 上进行测试要比在更小的语料库上进行测试更具挑战性。
Oct, 2022
本研究论文介绍了一种名为 FOLK(First-Order-Logic-Guided Knowledge-Grounded Reasoning)的方法,用大型语言模型(LLMs)进行复杂声明的验证和解释生成,同时不需要基于人工标注的证据。该方法通过将声明转化为由谓词组成的一阶逻辑子句,每个谓词对应需验证的一个子声明,并利用一组知识基础的问答对进行一阶逻辑引导的推理,从而做出真实性预测并生成解释以说明其决策过程,使模型高度解释性。实验结果表明,FOLK 在涵盖各种声明验证挑战的三个数据集上优于强基线模型。
Oct, 2023
本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法,并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线,而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法,但我们相信我们的探索显示出这种方法是可行的,并且有很大的发展空间。
Jun, 2020
通过构建合适的推理环境,本文探索利用大型语言模型(LLMs)解决开放式信息抽取(OIE)问题,实验结果表明,相较于最先进的监督方法,我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数,同时在 TACRED 和 ACE05 上实验结果显示,我们的方法可以自然地推广到其他信息抽取任务,并分别获得了 5.7 和 6.8 的 F1 分数提升。
Oct, 2023
我们提出了一种端到端的多模态事实核查和解释生成方法,利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性,并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg,这是一个大规模数据集,包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验,以建立基准性能,并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知,我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。
May, 2022