大型语言模型中的事实性调查：知识、检索与领域特定性

Oct, 2023

大型语言模型中的事实性调查：知识、检索与领域特定性

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

Cunxiang Wang, Xiaoze Liu, Yuanhao Yue, Xiangru Tang, Tianhang Zhang...

TL;DR该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。

Abstract

This survey addresses the crucial issue of factuality in large language models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the <

发现论文，激发创造

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为felm的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

超越事实性：大型语言模型作为知识生成器的综合评估

通过CONNER对大型语言模型在知识密集型任务中生成的知识进行综合评估，发现事实性的小错误并不会显著影响下游任务，因此相关性和连贯性比事实性更为重要。此外，研究还提出了通过Prompt Engineering和Knowledge Selection来改进知识密集型任务的方法。

Oct, 2023

大型语言模型是否可靠的评判者？一个关于LLM事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的RLHF和解码策略有显著改善。

Nov, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进LLM的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进LLM的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

Multi-向性知识评估：利用FActScore评估多语言LLMs的多区域知识

本研究通过对九种语言进行分析，系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性，发现英语在事实准确性和生成事实的数量方面一直表现优异，并且多语言模型对来自西方大陆的事实信息存在偏见，这些发现凸显了改善多语言事实评估的需求和大型语言模型事实生成中的地理偏差。

Feb, 2024

大型语言模型中的长篇事实准确性

大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性，我们首先使用GPT-4生成了一个包含38000个问题的长篇事实测试集，然后提出利用LLM代理作为长篇事实性的自动化评估器的方法（称为SAFE），通过将长篇回复分解为一组单个事实，并使用多步推理过程（发送搜索查询到Google搜索并确定搜索结果是否支持事实）来评估每个事实的准确性。此外，我们提出将F1分数扩展为评估长篇事实性的聚合度量标准，通过将回复中的支持事实的百分比（准确率）与相对于用户首选回复长度的超参数表示的提供事实的百分比（召回率）进行平衡。实证上，我们证明LLM代理在超出人类标注者的16k个个别事实集上实现了超人类的评级性能- SAFE在这些事实中与众包人类标注者的意见达成72%的一致，在100个不一致案例的随机子集中，SAFE赢得了76%的情况。与此同时，SAFE比人类标注者便宜多达20倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试，涵盖四个模型系列（Gemini，GPT，Claude和PaLM-2），发现较大的语言模型通常可以实现更好的长篇事实性。LongFact，SAFE和所有实验代码均可在此https URL中获取。

Mar, 2024

使用大规模知识图谱评估大型语言模型的真实性

提出了GraphEval方法使用大规模测试数据集来评估大型语言模型的性能，该方法通过从包含1000万多个事实的大型知识图中检索测试数据集来简化评估过程，并创造了一个判断模型来估计语言模型所给出答案的正确性。实验证明判断模型的事实评估与语言模型的生成输出的正确性密切相关，并且大大降低了评估成本，同时还为后续改进确保语言模型输出的事实性提供了有价值的见解。

Apr, 2024

面向事实知识回忆的LLM综合评估

评估大型语言模型的事实记忆能力及其影响因素，涵盖多个领域、知识流行度水平和模型家族，并观察到指令调整对知识召回的负面影响、模型规模对性能的正面影响以及反事实演示对大模型事实知识召回的降低作用。

Apr, 2024

当前估计器的可靠性和稳健性: 对LLMs的事实置信度

大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Jun, 2024