公共卫生宣称的可解释自动事实检查
通过一系列实验,本文对可解释的事实核查进行了全面分析,重点研究了大型语言模型验证公共健康主张的能力,并提供解释或证明其真实性评估的能力。我们通过零 / 少提示和参数高效微调的形式,在各种开放和封闭源模型中,检验了它们在真实性预测和解释生成的孤立和联合任务中的效果。重要的是,我们采用了前期确认的自动度量标准和一套新标准的人工评估方式来进行双重评估。自动评估结果显示,在零提示场景下,GPT-4 是出类拔萃的表现者,但在少提示和参数高效微调的情况下,开放源模型不仅能够填补性能差距,而且在某些情况下超过了 GPT-4。人工评估显示出更多细微差异,并且指出了黄金解释可能存在的问题。
May, 2024
自动化生成证明(说明为何某主张被分类为真或假)的过程在抵制虚假信息方面起到重要作用,这篇论文针对无结构知识(如新闻文章)的摘要方法进行了实验证明,结果显示,通过基于主张信息的抽取步骤改善摘要性能可以从证明生成摘要中获益。
Aug, 2023
基于大型语言模型,从网络中自动检索和总结证据,以解决可解释的事实检查系统中提供足够和相关证据的挑战,并通过 RU22Fact 构建一个新颖的多语言可解释的事实检查数据集,基于该数据集开发出了一个端到端的可解释的事实检查系统,实验结果表明优化的证据可以提高事实检查性能,并显示端到端声明验证和解释生成任务有进一步进展的可能性。
Mar, 2024
本文介绍自动事实核查在互联网内容管理中的重要性,提出了面向缺陷的事实核查任务并引入了专门设计的框架 RefuteClaim,通过提取和转换专家审查的见解,创造了用于该任务的数据集 FlawCheck,并实验证明了 RefuteClaim 在分类和阐明虚假主张方面的有效性。
Jan, 2024
本文介绍了现有科学事实检查研究的综合调查及其相关任务,讨论现有数据集的构建过程,并分析提出的模型和方法,以期通过基于 NLP 的自动化科学事实检查方法帮助打击信息误传,协助研究人员进行知识发现,并帮助人们了解新的科学突破。
May, 2023
本文介绍了一个用于事实核查的自动化平台,该平台能够检索相关文本证据,预测每个证据是否支持或反驳一个声明,并返回最终结论。此外,本文还对这个平台在新闻工作流中的应用进行了用户研究,并为其性能作出了评估。结果表明,该平台的预测正确率为 58%,返回的证据中有 59%是相关的。
Apr, 2019
本文综述了基于自然语言处理的自动事实核查技术及其在相关学科里的应用。该技术使用自然语言处理、机器学习、知识表示和数据库等技术预测声称的可信度,同时介绍了现有数据集和模型,旨在统一各种定义并识别通用概念,最后提出了未来研究的挑战。
Aug, 2021
在数字时代,从互联网上获取健康相关的建议已成为一种常见做法。然而,评估在线医学声明的可靠性并找到相应的证据变得越来越具有挑战性。本文介绍了一种新颖的、由医学专家标记为真实性的并提供来自临床研究的证据支持的 750 个健康相关声明的数据集。我们分析了该数据集的特征和挑战,并提供了基于不同方法的基准模型,研究了它们的性能并讨论了相关发现,以帮助推进这一任务的自动化。该数据集可用于与自动事实核查相关的机器学习任务,例如证据检索、真实性预测和解释生成。
Sep, 2023