自检器:用于基于大语言模型事实检测的即装即用模块
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
该研究通过对大型语言模型在事实检查方面的潜力进行初步调查,系统评估了它们在处理特定事实检查子任务中的能力,并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能,但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战,这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力,并揭示了在事实检查任务中可能面临的挑战。
Nov, 2023
对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估,发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能,具备解释不合理方面和潜在动机的能力,同时已有的开源模型存在强烈的偏见,并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示,据我们所知,这是第一次对多模态大型语言模型进行真实世界事实检查的评估。
Mar, 2024
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
我们引入了一种名为 FactChecker 的新型自动化测试框架,通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例,以及使用匹配策略评估大型语言模型的响应准确性,从而揭示了大型语言模型中的事实错误,并展示了测试用例对提高模型的事实准确性的有效性。
Jan, 2024
本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法,并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线,而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法,但我们相信我们的探索显示出这种方法是可行的,并且有很大的发展空间。
Jun, 2020
应用八个突出的开源语言模型(LLMs)通过精调和提示工程来从政治转录中识别值得检查的陈述,并通过两步数据修剪方法自动识别高质量训练数据实例,能够在 CheckThat!2024 的英语语言数据集方面展示有效学习和竞争性性能。
Jun, 2024
基于大型语言模型(LLMs)的事实性评估框架 OpenFactCheck,包括自定义自动事实检查器 CUSTCHECKER、多角度评估 LMM 事实性的统一评估框架 LLMEVAL 和使用人工标注数据集评估自动事实检查器验证结果可靠性的 CHECKEREVAL。
May, 2024
通过构建合成训练数据,我们展示了如何构建具有 GPT-4 水平性能但成本降低 400 倍的小型模型,通过检查声明中的每个事实并识别跨句子的信息合成来进行验证,并发布了 LLM-AggreFact 数据集和模型。
Apr, 2024