大型语言模型是否了解事实？

Oct, 2023

Do Large Language Models Know about Facts?

Xuming Hu, Junzhe Chen, Xiaochuan Li, Yufei Guo, Lijie Wen...

TL;DR通过设计基准测试 Pinocchio，综合评估大型语言模型 (LLMs) 中的事实知识的广度和范围，研究发现现有的 LLMs 仍然缺乏事实知识并存在各种虚假相关性，这成为实现可靠人工智能的关键瓶颈。

Abstract

large language models (LLMs) have recently driven striking performance improvements across a range of natural language processing tasks. The factual knowledge acquired during pretraining and instruction tuning can be useful in various downstream tasks, such as question answering, and l

large language models factual knowledge benchmark pinocchio factual questions trustworthy artificial intelligence

发现论文，激发创造

面向事实知识回忆的 LLM 综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

大型语言模型在预训练期间如何获取事实知识？

通过研究大型语言模型在预训练过程中获得事实知识的机制，发现预训练数据量的增加并不显著提高模型获得和保持事实知识的能力，训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系，重复训练数据会导致遗忘加速，而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率，但此提升会受到后续遗忘的影响。根据这一解释，我们对大型语言模型的表现提供了合理的解释，如对尾部知识的糟糕表现以及去重预训练语料库的好处。

Jun, 2024

大型语言模型中的事实知识系统评估

通过利用知识图谱 (KGs) 来系统评估大型语言模型 (LLMs) 的事实知识，本文提出了一个框架。我们的框架通过从给定 KG 中存储的事实自动生成一组问题和预期答案，然后评估 LLMs 回答这些问题的准确性。我们在通用和特定领域系统评估了最先进的 LLMs，实验证明 ChatGPT 在所有领域中始终是最佳表现者。我们还发现 LLMs 的表现取决于指导微调、领域和问题的复杂性，并且容易受到对抗性环境的影响。

Oct, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

在大型语言模型中测量和修改实体知识

本文提出了信息理论量化大型语言模型中现实知识的方法，评估了其与现有排名法的精度，并探究了两种前沿知识安装方法在特定情况下的限制，最后通过应用在上下文学习中，证明了该方法可以用来提取 LLM 中未学习和错学的事实。

Jun, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

大型语言模型中的事实性调查：知识、检索与领域特定性

该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。

Oct, 2023

大型语言模型是否是良好的事实核查者：初步研究

该研究通过对大型语言模型在事实检查方面的潜力进行初步调查，系统评估了它们在处理特定事实检查子任务中的能力，并与预训练和最先进的低参数模型进行了性能对比分析。实验证明大型语言模型在大多数场景中取得了与其他小型模型相媲美的性能，但在处理中文事实验证和整个事实检查流程中遇到了语言不一致和虚构的挑战，这些发现强调了进一步探索和研究以增强大型语言模型作为可靠事实检查器的能力，并揭示了在事实检查任务中可能面临的挑战。

Nov, 2023

超越事实性：大型语言模型作为知识生成器的综合评估

通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估，发现事实性的小错误并不会显著影响下游任务，因此相关性和连贯性比事实性更为重要。此外，研究还提出了通过 Prompt Engineering 和 Knowledge Selection 来改进知识密集型任务的方法。

Oct, 2023

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023