支持现实世界事实核查的多模态大型语言模型

Mar, 2024

支持现实世界事实核查的多模态大型语言模型

Multimodal Large Language Models to Support Real-World Fact-Checking

Jiahui Geng, Yova Kementchedjhieva, Preslav Nakov, Iryna Gurevych

TL;DR对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Abstract

multimodal large language models (MLLMs) carry the potential to support humans in processing vast amounts of information. While MLLMs are already being used as a fact-checking tool, their abilities and limitation

multimodal large language models fact-checking capacity assessment model accuracy biased open-source models

发现论文，激发创造

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

大型语言模型是否是良好的事实核查者：初步研究

该研究通过对大型语言模型在事实检查方面的潜力进行初步调查，系统评估了它们在处理特定事实检查子任务中的能力，并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能，但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战，这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力，并揭示了在事实检查任务中可能面临的挑战。

Nov, 2023

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

探索大型语言模型在识别误导性新闻标题中的潜力

利用大型语言模型（LLMs），本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异，ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性，旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义，强调了在技术先进的同时，还需要考虑伦理道德和人类解读的微妙性。

May, 2024

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

大型语言模型的自动索赔匹配：在打击虚假信息中赋予事实检查员权力

通过使用 FACT-GPT 框架，我们介绍了一种自动化事实核查的方法，该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容，无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明，我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美，与人工标注结果密切一致。

Oct, 2023

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023