大型语言模型是否是良好的事实核查者：初步研究

Nov, 2023

大型语言模型是否是良好的事实核查者：初步研究

Are Large Language Models Good Fact Checkers: A Preliminary Study

Han Cao, Lingwei Wei, Mengyang Chen, Wei Zhou, Songlin Hu

TL;DR该研究通过对大型语言模型在事实检查方面的潜力进行初步调查，系统评估了它们在处理特定事实检查子任务中的能力，并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能，但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战，这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力，并揭示了在事实检查任务中可能面临的挑战。

Abstract

Recently, large language models (LLMs) have drawn significant attention due to their outstanding reasoning capabilities and extensive knowledge repository, positioning them as superior in handling various natural language processing tasks compared to other language models. In this pape

large language models fact-checking llm chinese fact verification performance

发现论文，激发创造

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

语言模型作为事实检查员？

本文探索了利用语言模型自带的知识来创建基于 LM 的事实检查器的方法，并在闭卷条件下展示了我们的零 - shot LM 方法在标准 FEVER 任务上优于随机基准线，而我们的微调 LM 与标准基准线相比表现出色。虽然我们最终没有超越使用显式知识库的方法，但我们相信我们的探索显示出这种方法是可行的，并且有很大的发展空间。

Jun, 2020

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

注意你的语言模型：对 LLMs 及其在 NLP 研究与实践中的事实核实

这篇文章提供了大型语言模型（LLMs）的定义，阐述了相关功能的假设，并概述了支持和反对它们的现有证据，最后给出了未来研究方向和其框架的建议。

Aug, 2023

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

大型语言模型是否了解事实？

通过设计基准测试 Pinocchio，综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围，研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性，这成为实现可靠人工智能的关键瓶颈。

Oct, 2023

自检器：用于基于大语言模型事实检测的即装即用模块

本文提出一种基于自监督的零次学习框架 ——Self-Checker，旨在解决基于特定数据集进行事实检查的计算负担问题。实验结果表明，该框架在低资源环境下能够快速且高效地构建事实检查系统，其能力仍有待进一步提高。

May, 2023