增强事实性的语言模型用于开放式文本生成
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性,我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集,然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法(称为 SAFE),通过将长篇回复分解为一组单个事实,并使用多步推理过程(发送搜索查询到 Google 搜索并确定搜索结果是否支持事实)来评估每个事实的准确性。此外,我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准,通过将回复中的支持事实的百分比(准确率)与相对于用户首选回复长度的超参数表示的提供事实的百分比(召回率)进行平衡。实证上,我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致,在 100 个不一致案例的随机子集中,SAFE 赢得了 76% 的情况。与此同时,SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试,涵盖四个模型系列(Gemini,GPT,Claude 和 PaLM-2),发现较大的语言模型通常可以实现更好的长篇事实性。LongFact,SAFE 和所有实验代码均可在此 https URL 中获取。
Mar, 2024
评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域,目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题,我们介绍了一个名为 felm 的大型语言模型真实性评估基准,该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释,我们可以帮助定位具体的事实错误。然而,我们的实验证实,当前的语言模型在忠实地检测事实错误方面还远远不够满意。
Oct, 2023
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
该研究总结了大型语言模型中的事实性问题,讨论了其不准确性对不同领域应用的潜在影响和挑战,分析了导致事实性错误的主要原因,介绍了评估模型事实性的方法和策略,提供了研究人员指南以增强大型语言模型的事实可靠性。
Oct, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别 LLM 输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳 F1=0.53。
Nov, 2023
通过 CONNER 对大型语言模型在知识密集型任务中生成的知识进行综合评估,发现事实性的小错误并不会显著影响下游任务,因此相关性和连贯性比事实性更为重要。此外,研究还提出了通过 Prompt Engineering 和 Knowledge Selection 来改进知识密集型任务的方法。
Oct, 2023
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
我们引入了一种名为 FactChecker 的新型自动化测试框架,通过构建事实知识图谱、生成包括不同类型问题和正确答案的测试用例,以及使用匹配策略评估大型语言模型的响应准确性,从而揭示了大型语言模型中的事实错误,并展示了测试用例对提高模型的事实准确性的有效性。
Jan, 2024