2024 年大型语言模型的事实性

Feb, 2024

Factuality of Large Language Models in the Year 2024

Yuxia Wang, Minghan Wang, Muhammad Arslan Manzoor, Georgi Georgiev, Rocktim Jyoti Das...

TL;DR大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Abstract

large language models (LLMs), especially when instruction-tuned for chat, have become part of our daily lives, freeing people from the process of searching, extracting, and integrating information from multiple sources by offering a straightforward answer to a variety of questions in a

large language models factuality evaluating improving automated factuality evaluation

发现论文，激发创造

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型时代中的事实性挑战

探索大型语言模型（LLMs）的风险、潜在威胁和可行解决方案，以在生成 AI 时代中揭示准确性的各个方面。

Oct, 2023

大型语言模型中的事实性调查：知识、检索与领域特定性

该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。

Oct, 2023

大型语言模型是否是良好的事实核查者：初步研究

该研究通过对大型语言模型在事实检查方面的潜力进行初步调查，系统评估了它们在处理特定事实检查子任务中的能力，并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能，但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战，这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力，并揭示了在事实检查任务中可能面临的挑战。

Nov, 2023

增强事实性的语言模型用于开放式文本生成

本研究针对大规模预训练的语言模型，设计测试集和度量标准以提高生成文本的事实准确性，提出了基于主题前缀和句子补全的事实增强训练方法，并提出了更适合提高准确性的采样算法。

Jun, 2022

超越事实性：大型语言模型作为知识生成器的综合评估

通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估，发现事实性的小错误并不会显著影响下游任务，因此相关性和连贯性比事实性更为重要。此外，研究还提出了通过 Prompt Engineering 和 Knowledge Selection 来改进知识密集型任务的方法。

Oct, 2023

大型语言模型协助人类验证真实性 -- 除非其错得令人信服

通过与搜索引擎进行对比实验证明，大型语言模型虽然能提高事实核查的效率，但在解释错误的情况下容易让用户过分依赖，因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。

Oct, 2023

大型语言模型中的长篇事实准确性

大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性，我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集，然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法（称为 SAFE），通过将长篇回复分解为一组单个事实，并使用多步推理过程（发送搜索查询到 Google 搜索并确定搜索结果是否支持事实）来评估每个事实的准确性。此外，我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准，通过将回复中的支持事实的百分比（准确率）与相对于用户首选回复长度的超参数表示的提供事实的百分比（召回率）进行平衡。实证上，我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致，在 100 个不一致案例的随机子集中，SAFE 赢得了 76% 的情况。与此同时，SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试，涵盖四个模型系列（Gemini，GPT，Claude 和 PaLM-2），发现较大的语言模型通常可以实现更好的长篇事实性。LongFact，SAFE 和所有实验代码均可在此 https URL 中获取。

Mar, 2024

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024