大规模的端到端多语种事实核查
FactCheck Editor 是一种先进的文本编辑器,旨在自动化事实核查和纠正事实错误。它支持超过 90 种语言,利用 Transformer 模型来协助人类进行劳动密集型的事实验证过程。该演示展示了一个完整的工作流程,检测需要验证的文本声明,生成相关的搜索引擎查询,并从网络检索适当的文档。它使用自然语言推理(NLI)来预测声明的真实性,并使用 LLMs 来总结证据,并提出修正文本中任何错误的文本修订建议。此外,还在多种语言上评估了用于声明检测和真实性评估的模型的有效性。
Apr, 2024
本研究介绍了 X-FACT 数据集,这是目前最大的公开的多语言事实验证数据集,其中包含 25 种语言的短语句,并由专业事实检查者标记真实性,数据集包含多语言评估基准测试,并使用现代化的多语言变压器模型开发了多个自动事实检查模型,实证表明模型的最佳性能 F1 分数约为 40%,因此是评估多语言事实检查模型的挑战性基准测试。
Jun, 2021
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
本论文提出了一个新的多语言数据集 MultiClaim,其中包含 28k 个社交媒体帖子和 206k 个来自专业事实核查人员写的 39 种语言的事实核查。我们评估了不同的非监督方法在这个数据集上的效果,并显示对这样一个多样化的数据集进行评估具有复杂性,需要在解释结果之前采取适当的措施。我们还评估了一种监督微调方法,显著提高了非监督方法的性能。
May, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
本研究调查了语言特定的事实核查模型的潜在益处,重点关注汉语的情况。我们通过翻译中文声明和证据成英文,或直接使用多语言大型语言模型(如 GPT4)的方法的限制,强调了需要语言特定系统的必要性。我们进一步发展了一种最先进的汉语事实核查系统,与之前将证据选择视为成对句子分类任务的方法相反,该系统考虑了句子的上下文。我们还创建了一个对抗性数据集来识别模型中的偏见,虽然这种偏见与英文语言数据集和模型中的偏见相似,但通常特定于中国文化。我们的研究强调了语言特定的事实核查模型对有效打击虚假信息的重要性。
Jan, 2024
对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估,发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能,具备解释不合理方面和潜在动机的能力,同时已有的开源模型存在强烈的偏见,并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示,据我们所知,这是第一次对多模态大型语言模型进行真实世界事实检查的评估。
Mar, 2024
本研究使用多语言变换器模型和嵌入技术(如 XLM-RoBERTa、LaBSE 和 SBERT 等)自动寻找社交媒体帖子(推文)中已经被事实检查过的主张。在不同语言设置中,我们进行了分类和检索实验,并取得了令人满意的结果。我们也发现处理不同语言时存在一些 NLP 挑战,并为未来的研究提供了一个新的事实检查和相应推文的数据集。
Feb, 2022