自检器：用于基于大语言模型事实检测的即装即用模块

May, 2023

自检器：用于基于大语言模型事实检测的即装即用模块

Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models

Miaoran Li, Baolin Peng, Zhu Zhang

TL;DR本文提出一种基于自监督的零次学习框架 ——Self-Checker，旨在解决基于特定数据集进行事实检查的计算负担问题。实验结果表明，该框架在低资源环境下能够快速且高效地构建事实检查系统，其能力仍有待进一步提高。

Abstract

fact-checking is an essential task in nlp that is commonly utilized for validating the factual accuracy of claims. Prior work has mainly focused on fine-tuning pre-trained languages models on specific datasets, w

fact-checking nlp language models self-checker zero-shot

发现论文，激发创造

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

大型语言模型是否是良好的事实核查者：初步研究

该研究通过对大型语言模型在事实检查方面的潜力进行初步调查，系统评估了它们在处理特定事实检查子任务中的能力，并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能，但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战，这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力，并揭示了在事实检查任务中可能面临的挑战。

Nov, 2023

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

大型语言模型的自动索赔匹配：在打击虚假信息中赋予事实检查员权力

通过使用 FACT-GPT 框架，我们介绍了一种自动化事实核查的方法，该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容，无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明，我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美，与人工标注结果密切一致。

Oct, 2023

地球是平的吗？揭示大型语言模型中的事实错误

我们引入了一种名为 FactChecker 的新型自动化测试框架，通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例，以及使用匹配策略评估大型语言模型的响应准确性，从而揭示了大型语言模型中的事实错误，并展示了测试用例对提高模型的事实准确性的有效性。

Jan, 2024

语言模型作为事实检查员？

本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法，并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线，而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法，但我们相信我们的探索显示出这种方法是可行的，并且有很大的发展空间。

Jun, 2020

CheckThat! 2024 中的事实查找者：通过数据修剪改善 LLMs 的适用于检查的陈述检测

应用八个突出的开源语言模型（LLMs）通过精调和提示工程来从政治转录中识别值得检查的陈述，并通过两步数据修剪方法自动识别高质量训练数据实例，能够在 CheckThat！2024 的英语语言数据集方面展示有效学习和竞争性性能。

Jun, 2024

OpenFactCheck：面向 LLMs 的事实性评估统一框架

基于大型语言模型（LLMs）的事实性评估框架 OpenFactCheck，包括自定义自动事实检查器 CUSTCHECKER、多角度评估 LMM 事实性的统一评估框架 LLMEVAL 和使用人工标注数据集评估自动事实检查器验证结果可靠性的 CHECKEREVAL。

May, 2024

FactLLaMA: 使用外部知识优化指令跟随语言模型以进行自动事实检验

结合外部证据检索并利用这些证据对指令遵循的语言模型进行指导调优，从而提高事实核实任务的性能。

Sep, 2023

MiniCheck：基于文本证明的 LLM 高效事实核查

通过构建合成训练数据，我们展示了如何构建具有 GPT-4 水平性能但成本降低 400 倍的小型模型，通过检查声明中的每个事实并识别跨句子的信息合成来进行验证，并发布了 LLM-AggreFact 数据集和模型。

Apr, 2024